VibeVoice Преобразование текста в речь
Новаторская платформа для генерации выразительного длинного многоспикерного разговорного аудио из текста. Использует токенизаторы с ультранизкой частотой кадров и диффузионную архитектуру следующего токена для высококачественного синтеза речи до 90 минут с 4 различными спикерами.
Ключевые функции
- •Длинное разговорное аудио (до 90 минут)
- •Поддержка нескольких спикеров (до 4 различных спикеров)
- •Токенизаторы с ультранизкой частотой кадров (7.5 Гц)
- •Диффузионная архитектура следующего токена
🎁 Испытайте будущее разговорной технологии преобразования текста в речь

Попробовать VibeVoice онлайн
Испытайте мощь VibeVoice преобразования текста в речь прямо в браузере. Установка не требуется.

Что такое VibeVoice
VibeVoice - это новаторская платформа, предназначенная для генерации выразительного длинного многоспикерного разговорного аудио из текста. Она решает значительные проблемы традиционных TTS-систем, особенно в масштабируемости, согласованности спикеров и естественном переходе между говорящими.
- Непрерывные речевые токенизаторыИспользует акустические и семантические токенизаторы, работающие с ультранизкой частотой кадров 7.5 Гц, эффективно сохраняя акустическую точность при значительном повышении вычислительной эффективности.
- Диффузионная архитектура следующего токенаИспользует большую языковую модель для понимания текстового контекста и потока диалога, с диффузионной головой для генерации высококачественных акустических деталей.
- Поддержка длинных многоспикерных диалоговСинтезирует речь до 90 минут с до 4 различных спикеров, превосходя типичные ограничения 1-2 спикеров предыдущих моделей.
Почему выбирают VibeVoice
Испытайте прорывную технологию в разговорном преобразовании текста в речь с беспрецедентной масштабируемостью и естественной генерацией диалогов.



Что делает VibeVoice особенным
VibeVoice - это прорывная платформа, которая революционизирует разговорное преобразование текста в речь своей инновационной архитектурой и беспрецедентными возможностями.
Непрерывные речевые токенизаторы
Акустические и семантические токенизаторы, работающие с ультранизкой частотой кадров 7.5 Гц для эффективной обработки длинных последовательностей
Диффузионная архитектура следующего токена
Объединяет понимание LLM с диффузионной головой для генерации высококачественных акустических деталей
Поддержка длинных многоспикерных диалогов
Генерируйте до 90 минут аудио с до 4 различных спикеров в естественных диалогах
Выразительное разговорное аудио
Специально разработано для подкастов, интервью и многоспикерных диалогов с естественным переходом между говорящими
Масштабируемая архитектура
Решает традиционные проблемы TTS в масштабируемости, согласованности спикеров и естественном потоке диалога
Исследовательская платформа
Платформа с открытым исходным кодом, предназначенная для продвижения сотрудничества в сообществе синтеза речи
Что говорят люди
Посмотрите, что сообщество думает о VibeVoice.
Been playing with Microsoft’s VibeVoice, MIT-licensed TTS that does ~90-minute narrations, multi-speaker, cross-lingual.
— Sai (@SAIT112024) August 30, 2025
Streaming and a larger checkpoint are coming. Let’s just say it drops neatly into a local-first stack I care about. pic.twitter.com/TCxDcmAgDj
VibeVoice might be the best FREE text to speech & voice cloner right now.
— ⚡AI Search⚡ (@aisearchio) September 3, 2025
- Over 90min generations
- Up to 4 speakers
- Auto expressions
- Can run on consumer GPUs
See my full tutorial: https://t.co/UnbBzSMZA9 pic.twitter.com/yFDaqEbd5U
VibeVoice 复活啦!
— karminski-牙医 (@karminski3) September 15, 2025
我是没想到 VibeVoice 都快变成 电视剧了,最近社区爱好者们自发的从VibeVoice 历史提交中成功找回了未经河蟹的版本,然后放到了 HuggingFace。由于微软当初是 MIT协议发布的,所以微软也没办法下架这个恢复出来的模型了。
总之,如果你想用 VibeVoice… pic.twitter.com/VxMAklY8kL
微软新开源了这个 VibeVoice TTS模型很强
— 歸藏(guizang.ai) (@op7418) August 26, 2025
- 支持最多生成 90 分钟时长
- 最多4 个人的对谈语音,以往模型只能生成两个
- 支持中文,而且中文效果不错
- 支持生成带背景音乐的播客音频 pic.twitter.com/gnHDl3Apmj
💬 Microsoft > VibeVoice 모델 공개
— lucas (@lucas_flatwhite) September 2, 2025
마이크로소프트에서 공개한 VibeVoice는 텍스트를 입력받아 자연스러운 대화 형식의 오디오를 생성하는 오픈소스 TTS(Text-to-Speech) 모델이에요.
VibeVoice: A Frontier Open-Source Text-to-Speech Modelhttps://t.co/iveNf3unot
Hugging Face… pic.twitter.com/BSlyQItasF
【速報🔥】超高性能TTS「VibeVoice」がコミュニティ主導で劇的復活🎉 長時間&複数人会話音声生成がクリエイターの強力な武器に!
— ハカセ アイ(Ai-Hakase)🐾最新トレンドAIのためのX 🐾 (@ai_hakase_) September 15, 2025
Microsoftが中止した超高性能TTS「VibeVoice」が、コミュニティの情熱で「VibeVoice-Community」として劇的復活しましたよ!🎉… pic.twitter.com/n2k5ROEzQv
Часто задаваемые вопросы о VibeVoice
У вас есть другой вопрос? Свяжитесь с нами по электронной почте.
Для чего предназначен VibeVoice?
VibeVoice предназначен для генерации выразительного длинного многоспикерного разговорного аудио, такого как подкасты, интервью и расширенные диалоги из текстового ввода.
Как долго VibeVoice может генерировать аудио?
VibeVoice может синтезировать речь до 90 минут, что значительно дольше, чем традиционные TTS-системы, которые обычно обрабатывают гораздо более короткие последовательности.
Сколько спикеров может обрабатывать VibeVoice?
VibeVoice поддерживает до 4 различных спикеров в одном диалоге с естественным переходом между говорящими и согласованностью спикеров на протяжении всего аудио.
Какие языки поддерживает VibeVoice?
VibeVoice в настоящее время поддерживает английский и китайский языки. Тексты на других языках могут привести к неожиданным аудио-выводам.
Подходит ли VibeVoice для коммерческого использования?
VibeVoice предназначен только для исследовательских и разработческих целей. Мы не рекомендуем использовать его в коммерческих или реальных приложениях без дальнейшего тестирования и разработки.
Готовы попробовать VibeVoice?
Испытайте мощь разговорной технологии преобразования текста в речь.