VibeVoice テキスト読み上げ

テキストから表現力豊かな長い多話者会話音声を生成する革新的なフレームワーク。超低周波数トークナイザーと次トークン拡散を使用して、最大4人の異なる話者で90分まで高品質な音声合成を実現。

主要機能

•長い会話音声（最大90分）
•多話者サポート（最大4人の異なる話者）
•超低周波数トークナイザー（7.5 Hz）
•次トークン拡散フレームワーク

🎁 会話型テキスト読み上げ技術の未来を体験

VibeVoiceとは

VibeVoiceは、テキストから表現力豊かな長い多話者会話音声を生成するために設計された革新的なフレームワークです。特にスケーラビリティ、話者一貫性、自然な話者交代の面で、従来のTTSシステムの重要な課題を解決します。

連続音声トークナイザー
7.5 Hzの超低周波数で動作する音響および意味トークナイザーを使用し、計算効率を大幅に向上させながら音声忠実度を効率的に保持。
次トークン拡散フレームワーク
大規模言語モデルを活用してテキストコンテキストと会話フローを理解し、拡散ヘッドで高品質な音響詳細を生成。
長い多話者サポート
最大4人の異なる話者で最大90分まで音声を合成し、従来のモデルの典型的な1-2話者制限を上回る。

利点

VibeVoiceを選ぶ理由

前例のないスケーラビリティと自然な対話生成を備えた会話型テキスト読み上げ技術の革新的な技術を体験。

最大90分までの会話音声を生成し、ポッドキャスト、インタビュー、拡張対話に最適。

VibeVoiceの特別な点

VibeVoiceは、革新的なアーキテクチャと前例のない能力で会話型テキスト読み上げ技術を革命化する画期的なフレームワークです。

連続音声トークナイザー

効率的な長いシーケンス処理のため7.5 Hzの超低周波数で動作する音響および意味トークナイザー

次トークン拡散フレームワーク

LLM理解と拡散ヘッドを組み合わせて高品質な音響詳細を生成

長い多話者サポート

最大4人の異なる話者で最大90分までの自然な会話音声を生成

表現力豊かな会話音声

自然な話者交代を備えたポッドキャスト、インタビュー、多話者対話のために特別に設計

スケーラブルアーキテクチャ

スケーラビリティ、話者一貫性、自然な会話フローの面で従来のTTSの課題を解決

研究フレームワーク

音声合成コミュニティの協力促進を目的としたオープンソース研究フレームワーク

お客様の声

人々が言っていること

コミュニティがVibeVoiceについてどう思っているかを見てください。

Been playing with Microsoft’s VibeVoice, MIT-licensed TTS that does ~90-minute narrations, multi-speaker, cross-lingual.

Streaming and a larger checkpoint are coming. Let’s just say it drops neatly into a local-first stack I care about. pic.twitter.com/TCxDcmAgDj
— Sai (@SAIT112024) August 30, 2025

VibeVoice might be the best FREE text to speech & voice cloner right now.

- Over 90min generations
- Up to 4 speakers
- Auto expressions
- Can run on consumer GPUs

See my full tutorial: https://t.co/UnbBzSMZA9 pic.twitter.com/yFDaqEbd5U
— ⚡AI Search⚡ (@aisearchio) September 3, 2025

VibeVoice 复活啦！

我是没想到 VibeVoice 都快变成电视剧了，最近社区爱好者们自发的从VibeVoice 历史提交中成功找回了未经河蟹的版本，然后放到了 HuggingFace。由于微软当初是 MIT协议发布的，所以微软也没办法下架这个恢复出来的模型了。

总之，如果你想用 VibeVoice… pic.twitter.com/VxMAklY8kL
— karminski-牙医 (@karminski3) September 15, 2025

微软新开源了这个 VibeVoice TTS模型很强

- 支持最多生成 90 分钟时长
- 最多4 个人的对谈语音，以往模型只能生成两个
- 支持中文，而且中文效果不错
- 支持生成带背景音乐的播客音频 pic.twitter.com/gnHDl3Apmj
— 歸藏(guizang.ai) (@op7418) August 26, 2025

💬 Microsoft > VibeVoice 모델 공개

마이크로소프트에서 공개한 VibeVoice는 텍스트를 입력받아 자연스러운 대화 형식의 오디오를 생성하는 오픈소스 TTS(Text-to-Speech) 모델이에요.

VibeVoice: A Frontier Open-Source Text-to-Speech Modelhttps://t.co/iveNf3unot

Hugging Face… pic.twitter.com/BSlyQItasF
— lucas (@lucas_flatwhite) September 2, 2025

【速報🔥】超高性能TTS「VibeVoice」がコミュニティ主導で劇的復活🎉 長時間＆複数人会話音声生成がクリエイターの強力な武器に！
Microsoftが中止した超高性能TTS「VibeVoice」が、コミュニティの情熱で「VibeVoice-Community」として劇的復活しましたよ！🎉… pic.twitter.com/n2k5ROEzQv
— ハカセアイ(Ai-Hakase)🐾最新トレンドＡＩのためのＸ 🐾 (@ai_hakase_) September 15, 2025

よくある質問

VibeVoiceに関するよくある質問

他に質問がありますか？メールでお問い合わせください。

VibeVoiceは何のために設計されていますか？

VibeVoiceは、ポッドキャスト、インタビュー、拡張対話などの表現力豊かな長い多話者会話音声をテキスト入力から生成するために設計されています。

VibeVoiceはどのくらい長い音声を生成できますか？

VibeVoiceは最大90分まで音声を合成でき、通常ははるかに短いシーケンスを処理する従来のTTSシステムを大幅に上回ります。

VibeVoiceは何人の話者を処理できますか？

VibeVoiceは単一会話で最大4人の異なる話者をサポートし、音声全体を通して自然な話者交代と話者一貫性を維持します。

VibeVoiceはどの言語をサポートしていますか？

VibeVoiceは現在英語と中国語をサポートしています。他の言語のテキストは予期しない音声出力を引き起こす可能性があります。

VibeVoiceは商用利用に適していますか？

VibeVoiceは研究開発目的のみに使用されます。追加のテストと開発なしに商用または実際のアプリケーションで使用することは推奨しません。

VibeVoiceを試す準備はできていますか？

会話型テキスト読み上げ技術のパワーを体験してください。