隆重推出 Zonos

我们很激动地宣布 Zonos 的发布，这是一款突破性的开源文本转语音模型，正在为语音合成技术树立新的标准。🎯

Zonos 是什么？

Zonos 是一款领先的开源文本转语音模型，经过超过20万小时的多语言语音数据训练。它能够提供媲美甚至超越顶级 TTS 服务商的表现力和质量，同时完全开源。

核心特点

零样本声音克隆

体验即时声音克隆的强大功能。Zonos 只需要10-30秒的音频样本，就能以惊人的准确度复制任何声音。您只需提供目标文本和说话者样本，即可生成高质量的语音输出。

音频前缀增强

通过音频前缀输入将声音匹配提升到新的高度。结合文本和音频前缀，您可以实现更丰富的说话者匹配效果。这项功能能够实现独特的声音效果，比如耳语等，这些效果用单纯的说话者嵌入往往难以实现。

多语言支持

Zonos 打破语言障碍，支持多种语言：

英语
日语
中文
法语
德语

精细控制

享受对生成音频的精确控制：

语速调节
音调变化
最大频率
音频质量
情感表现（快乐、愤怒、悲伤、恐惧）

超快生成速度

速度至关重要，Zonos 实力出众。我们的模型在 RTX 4090 上能够实现约2倍的实时生成速度，意味着1秒的计算时间可以生成2秒的音频。

技术规格

系统要求

操作系统：Linux（推荐 Ubuntu 22.04/24.04）或 macOS
显卡：6GB+ 显存
附加要求：混合模型需要 3000 系列或更新的 Nvidia 显卡
CPU 模式：可用但速度显著较慢

架构设计

Zonos 采用直观的架构设计：

通过 eSpeak 进行文本规范化和音素转换
通过 transformer 或混合骨干网络进行 DAC 标记预测

开始使用

在线体验

直接在浏览器中通过我们的在线平台体验 Zonos。无需安装！

本地部署

如果您更喜欢本地部署：

使用我们的 Docker 容器实现简单设置
通过 pip 安装以获得更多自定义选项
根据需求选择 Transformer 或混合模型

开源承诺

Zonos 以 Apache 2.0 许可证proud开源。我们相信社区驱动的开发力量，欢迎来自全球开发者的贡献。

未来展望

这仅仅是 Zonos 的开始。我们正在积极开发：

支持更多语言
提升语音质量
优化性能
扩展情感范围

加入我们，一起塑造文本转语音技术的未来。立即体验 Zonos，感受下一代语音合成技术。

"Zonos 在高质量文本转语音技术的民主化进程中迈出了重要一步。它将质量、速度和易用性完美结合，是该领域的一个重大突破。" - Zyphra AI 团队