Zonos 文本转语音

一个领先的开源文本转语音模型,基于超过20万小时的多语言语音训练,在表现力和质量方面与顶级TTS提供商相当,甚至超越。

主要特性

  • 零样本TTS与语音克隆
  • 多语言支持(英文、日文、中文、法文、德文)
  • 音频质量和情感控制
  • 实时生成(RTX 4090上2倍速度)

🎁 体验文本转语音技术的未来

Zonos Text-to-Speech Architecture

在线体验 Zonos

直接在浏览器中体验 Zonos 文本转语音的强大功能。无需安装。

placeholder hero

什么是 Zonos

Zonos-v0.1 是一个领先的开源文本转语音模型,基于超过20万小时的多语言语音训练,在表现力和质量方面与顶级TTS提供商相当,甚至超越。

  • 零样本TTS与语音克隆
    输入所需文本和10-30秒的说话人样本,生成高质量的TTS输出,具备准确的语音克隆能力。
  • 音频前缀输入
    添加文本和音频前缀,实现更丰富的说话人匹配,以及像耳语这样难以复制的行为。
  • 精细控制
    控制语速、音调变化、音频质量和情感,如快乐、恐惧、悲伤和愤怒。
优势

为什么选择 Zonos

获得高质量文本转语音生成所需的一切,具备先进的语音克隆和情感控制功能。

仅需几秒钟的参考音频即可生成高度自然的语音,实现专业级语音克隆质量。

先进的语音克隆
多语言卓越表现
实时性能

Zonos 的独特之处

Zonos 是一个领先的开源文本转语音模型,结合了高质量、灵活性和易用性。

零样本TTS与语音克隆

输入所需文本和10-30秒的说话人样本,生成高质量的TTS输出

音频前缀输入

添加文本和音频前缀,实现更丰富的说话人匹配。音频前缀可用于引发如耳语等行为

多语言支持

Zonos-v0.1 支持英语、日语、中文、法语和德语

音频质量和情感控制

对多个方面的精细控制,包括语速、音调、最大频率、音频质量和各种情感

快速生成

我们的模型在RTX 4090上实现约2倍的实时因子(1秒计算时间生成2秒音频)

简单安装和部署

Zonos 配备了易于使用的 Gradio 界面,可以使用 Docker 简单安装和部署

用户评价

用户如何评价 Zonos

听听社区对 Zonos 的看法。

常见问题

关于 Zonos 的常见问题

还有其他问题?通过电子邮件联系我们。

1

系统要求是什么?

Zonos 需要 Linux(推荐 Ubuntu 22.04/24.04)或 macOS,以及具有 6GB+ VRAM 的 GPU。混合模型还需要 3000 系列或更新的 Nvidia GPU。Zonos 也可以在 CPU 上运行,但会显著变慢。

2

我可以在 Windows 上运行 Zonos 吗?

对于实验性 Windows 支持,请查看 Zonos 的 Windows 分支。但是,推荐使用 Linux 或 macOS 以获得最佳体验。

3

如何开始使用 Zonos?

您可以直接在浏览器中使用我们的在线演示体验 Zonos,或使用 pip 或 docker 在本地安装。查看我们的文档了解详细的安装和使用说明。

4

Zonos 支持哪些语言?

Zonos 目前支持英语、日语、中文、法语和德语。我们正在持续努力添加更多语言支持。

5

语音克隆是如何工作的?

Zonos 可以从仅几秒钟的音频(推荐 10-30 秒)克隆声音。只需提供参考音频片段和您的文本,Zonos 就会以该声音生成语音。

准备好体验 Zonos 了吗?

体验开源文本转语音的强大功能。