VibeVoice 文本转语音

一个创新的框架,用于从文本生成富有表现力的长对话多说话人音频。采用超低帧率分词器和下一词扩散技术,可生成长达90分钟、最多4个不同说话人的高质量语音合成。

主要特性

  • 长对话音频生成(最长90分钟)
  • 多说话人支持(最多4个不同说话人)
  • 超低帧率分词器(7.5 Hz)
  • 下一词扩散框架

🎁 体验对话文本转语音技术的未来

Zonos Text-to-Speech Architecture

在线体验 VibeVoice

直接在浏览器中体验 VibeVoice 文本转语音的强大功能。无需安装。

placeholder hero

什么是 VibeVoice

VibeVoice 是一个创新的框架,专门用于从文本生成富有表现力的长对话多说话人音频。它解决了传统TTS系统在可扩展性、说话人一致性和自然对话转换方面的重大挑战。

  • 连续语音分词器
    使用声学和语义分词器,以7.5 Hz的超低帧率运行,在提升计算效率的同时有效保持音频保真度。
  • 下一词扩散框架
    利用大语言模型理解文本上下文和对话流程,通过扩散头生成高保真度的声学细节。
  • 长对话多说话人支持
    可合成长达90分钟的语音,支持最多4个不同说话人,超越了以往模型通常1-2个说话人的限制。
优势

为什么选择 VibeVoice

体验对话文本转语音技术的突破性创新,具备前所未有的可扩展性和自然对话生成能力。

生成长达90分钟的对话音频,完美适用于播客、访谈和扩展对话。

超长音频生成
多说话人对话
计算效率

VibeVoice 的独特之处

VibeVoice 是一个突破性的框架,以其创新的架构和前所未有的能力革新了对话文本转语音技术。

连续语音分词器

声学和语义分词器以7.5 Hz的超低帧率运行,实现高效的长序列处理

下一词扩散框架

结合LLM理解和扩散头,生成高保真度的声学细节

长对话多说话人支持

生成长达90分钟的音频,支持最多4个不同说话人的自然对话

表达性对话音频

专门为播客、访谈和多说话人对话设计,具备自然的对话转换

可扩展架构

解决传统TTS在可扩展性、说话人一致性和自然对话流程方面的挑战

研究框架

开源研究框架,旨在推进语音合成社区的协作发展

用户评价

用户如何评价 VibeVoice

听听社区对 VibeVoice 的看法。

常见问题

关于 VibeVoice 的常见问题

还有其他问题?通过电子邮件联系我们。

1

VibeVoice 的设计用途是什么?

VibeVoice 专门用于从文本生成富有表现力的长对话多说话人音频,如播客、访谈和扩展对话。

2

VibeVoice 能生成多长的音频?

VibeVoice 可以合成长达90分钟的语音,远超传统TTS系统通常处理的短序列。

3

VibeVoice 能处理多少个说话人?

VibeVoice 在单个对话中支持最多4个不同说话人,在整个音频中保持自然的对话转换和说话人一致性。

4

VibeVoice 支持哪些语言?

VibeVoice 目前支持英语和中文。其他语言的文本可能导致意外的音频输出。

5

VibeVoice 适合商业使用吗?

VibeVoice 仅用于研究和开发目的。我们不建议在没有进一步测试和开发的情况下将其用于商业或实际应用。

准备好体验 VibeVoice 了吗?

体验对话文本转语音技术的强大功能。