VibeVoice Преобразование текста в речь

Новаторская платформа для генерации выразительного длинного многоспикерного разговорного аудио из текста. Использует токенизаторы с ультранизкой частотой кадров и диффузионную архитектуру следующего токена для высококачественного синтеза речи до 90 минут с 4 различными спикерами.

Ключевые функции

•Длинное разговорное аудио (до 90 минут)
•Поддержка нескольких спикеров (до 4 различных спикеров)
•Токенизаторы с ультранизкой частотой кадров (7.5 Гц)
•Диффузионная архитектура следующего токена

🎁 Испытайте будущее разговорной технологии преобразования текста в речь

Что такое VibeVoice

VibeVoice - это новаторская платформа, предназначенная для генерации выразительного длинного многоспикерного разговорного аудио из текста. Она решает значительные проблемы традиционных TTS-систем, особенно в масштабируемости, согласованности спикеров и естественном переходе между говорящими.

Непрерывные речевые токенизаторы
Использует акустические и семантические токенизаторы, работающие с ультранизкой частотой кадров 7.5 Гц, эффективно сохраняя акустическую точность при значительном повышении вычислительной эффективности.
Диффузионная архитектура следующего токена
Использует большую языковую модель для понимания текстового контекста и потока диалога, с диффузионной головой для генерации высококачественных акустических деталей.
Поддержка длинных многоспикерных диалогов
Синтезирует речь до 90 минут с до 4 различных спикеров, превосходя типичные ограничения 1-2 спикеров предыдущих моделей.

Преимущества

Почему выбирают VibeVoice

Испытайте прорывную технологию в разговорном преобразовании текста в речь с беспрецедентной масштабируемостью и естественной генерацией диалогов.

Генерируйте разговорное аудио до 90 минут, идеально подходящее для подкастов, интервью и расширенных диалогов.

Что делает VibeVoice особенным

VibeVoice - это прорывная платформа, которая революционизирует разговорное преобразование текста в речь своей инновационной архитектурой и беспрецедентными возможностями.

Непрерывные речевые токенизаторы

Акустические и семантические токенизаторы, работающие с ультранизкой частотой кадров 7.5 Гц для эффективной обработки длинных последовательностей

Диффузионная архитектура следующего токена

Объединяет понимание LLM с диффузионной головой для генерации высококачественных акустических деталей

Поддержка длинных многоспикерных диалогов

Генерируйте до 90 минут аудио с до 4 различных спикеров в естественных диалогах

Выразительное разговорное аудио

Специально разработано для подкастов, интервью и многоспикерных диалогов с естественным переходом между говорящими

Масштабируемая архитектура

Решает традиционные проблемы TTS в масштабируемости, согласованности спикеров и естественном потоке диалога

Исследовательская платформа

Платформа с открытым исходным кодом, предназначенная для продвижения сотрудничества в сообществе синтеза речи

Отзывы

Что говорят люди

Посмотрите, что сообщество думает о VibeVoice.

Been playing with Microsoft’s VibeVoice, MIT-licensed TTS that does ~90-minute narrations, multi-speaker, cross-lingual.

Streaming and a larger checkpoint are coming. Let’s just say it drops neatly into a local-first stack I care about. pic.twitter.com/TCxDcmAgDj
— Sai (@SAIT112024) August 30, 2025

VibeVoice might be the best FREE text to speech & voice cloner right now.

- Over 90min generations
- Up to 4 speakers
- Auto expressions
- Can run on consumer GPUs

See my full tutorial: https://t.co/UnbBzSMZA9 pic.twitter.com/yFDaqEbd5U
— ⚡AI Search⚡ (@aisearchio) September 3, 2025

VibeVoice 复活啦！

我是没想到 VibeVoice 都快变成电视剧了，最近社区爱好者们自发的从VibeVoice 历史提交中成功找回了未经河蟹的版本，然后放到了 HuggingFace。由于微软当初是 MIT协议发布的，所以微软也没办法下架这个恢复出来的模型了。

总之，如果你想用 VibeVoice… pic.twitter.com/VxMAklY8kL
— karminski-牙医 (@karminski3) September 15, 2025

微软新开源了这个 VibeVoice TTS模型很强

- 支持最多生成 90 分钟时长
- 最多4 个人的对谈语音，以往模型只能生成两个
- 支持中文，而且中文效果不错
- 支持生成带背景音乐的播客音频 pic.twitter.com/gnHDl3Apmj
— 歸藏(guizang.ai) (@op7418) August 26, 2025

💬 Microsoft > VibeVoice 모델 공개

마이크로소프트에서 공개한 VibeVoice는 텍스트를 입력받아 자연스러운 대화 형식의 오디오를 생성하는 오픈소스 TTS(Text-to-Speech) 모델이에요.

VibeVoice: A Frontier Open-Source Text-to-Speech Modelhttps://t.co/iveNf3unot

Hugging Face… pic.twitter.com/BSlyQItasF
— lucas (@lucas_flatwhite) September 2, 2025

【速報🔥】超高性能TTS「VibeVoice」がコミュニティ主導で劇的復活🎉 長時間＆複数人会話音声生成がクリエイターの強力な武器に！
Microsoftが中止した超高性能TTS「VibeVoice」が、コミュニティの情熱で「VibeVoice-Community」として劇的復活しましたよ！🎉… pic.twitter.com/n2k5ROEzQv
— ハカセアイ(Ai-Hakase)🐾最新トレンドＡＩのためのＸ 🐾 (@ai_hakase_) September 15, 2025

FAQ

Часто задаваемые вопросы о VibeVoice

У вас есть другой вопрос? Свяжитесь с нами по электронной почте.

Для чего предназначен VibeVoice?

VibeVoice предназначен для генерации выразительного длинного многоспикерного разговорного аудио, такого как подкасты, интервью и расширенные диалоги из текстового ввода.

Как долго VibeVoice может генерировать аудио?

VibeVoice может синтезировать речь до 90 минут, что значительно дольше, чем традиционные TTS-системы, которые обычно обрабатывают гораздо более короткие последовательности.

Сколько спикеров может обрабатывать VibeVoice?

VibeVoice поддерживает до 4 различных спикеров в одном диалоге с естественным переходом между говорящими и согласованностью спикеров на протяжении всего аудио.

Какие языки поддерживает VibeVoice?

VibeVoice в настоящее время поддерживает английский и китайский языки. Тексты на других языках могут привести к неожиданным аудио-выводам.

Подходит ли VibeVoice для коммерческого использования?

VibeVoice предназначен только для исследовательских и разработческих целей. Мы не рекомендуем использовать его в коммерческих или реальных приложениях без дальнейшего тестирования и разработки.

Готовы попробовать VibeVoice?

Испытайте мощь разговорной технологии преобразования текста в речь.