Zonos Synthèse Vocale

Un modèle de synthèse vocale open-weight de premier plan, entraîné sur plus de 200 000 heures de parole multilingue variée, offrant expressivité et qualité au niveau des meilleurs fournisseurs TTS, voire les dépassant.

Fonctionnalités Clés

•TTS Zero-shot avec clonage vocal
•Support multilingue (EN, JP, CN, FR, DE)
•Contrôle de la qualité audio et des émotions
•Génération en temps réel (vitesse 2x sur RTX 4090)

🎁 Découvrez l'avenir de la technologie de synthèse vocale

Terrain de jeu vocal

Découvrez la puissance de la synthèse vocale Zonos TTS directement dans votre navigateur. Essayez différentes voix, testez le clonage vocal et générez une parole de haute qualité instantanément.

~1 crédits

00:0000:00

Qu'est-ce que Zonos

Zonos-v0.1 est un modèle de synthèse vocale open-weight de premier plan, entraîné sur plus de 200 000 heures de parole multilingue variée, offrant expressivité et qualité au niveau des meilleurs fournisseurs TTS, voire les dépassant.

TTS Zero-shot avec clonage vocal
Saisissez le texte souhaité et un échantillon vocal de 10-30s pour générer une sortie TTS de haute qualité avec des capacités de clonage vocal précises.
Entrées audio avec préfixe
Ajoutez du texte plus un préfixe audio pour une correspondance de locuteur encore plus riche et des comportements comme le chuchotement qui sont difficiles à reproduire.
Contrôle fin
Contrôlez la vitesse de parole, la variation de hauteur, la qualité audio et les émotions telles que la joie, la peur, la tristesse et la colère.

Avantages

Pourquoi choisir Zonos

Obtenez tout ce dont vous avez besoin pour la génération de synthèse vocale de haute qualité avec clonage vocal avancé et contrôle des émotions.

Générez une parole hautement naturelle avec seulement quelques secondes d'audio de référence, atteignant une qualité de clonage vocal professionnelle.

Ce qui rend Zonos spécial

Zonos est un modèle de synthèse vocale open-weight de premier plan qui combine haute qualité, flexibilité et facilité d'utilisation.

TTS Zero-shot avec clonage vocal

Saisissez le texte souhaité et un échantillon vocal de 10-30s pour générer une sortie TTS de haute qualité

Entrées audio avec préfixe

Ajoutez du texte plus un préfixe audio pour une correspondance de locuteur encore plus riche. Les préfixes audio peuvent être utilisés pour susciter des comportements comme le chuchotement

Support multilingue

Zonos-v0.1 supporte l'anglais, le japonais, le chinois, le français et l'allemand

Contrôle de la qualité audio et des émotions

Contrôle fin de nombreux aspects incluant la vitesse de parole, la hauteur, la fréquence maximale, la qualité audio et diverses émotions

Génération rapide

Notre modèle fonctionne avec un facteur temps réel de ~2x sur un RTX 4090 (génère 2 secondes d'audio par 1 seconde de temps de calcul)

Installation et déploiement simples

Zonos est livré avec une interface Gradio facile à utiliser et peut être installé et déployé simplement avec Docker

Témoignages

Ce que disent les gens

Découvrez ce que la communauté pense de Zonos.

Wow that's very impressive

Zonos is a 100% open source AI model that can clone any voice 🤯

You can basically run it anywhere as it's only 1.6B parameters.

Link belowpic.twitter.com/yztyL46NvN
— Paul Couvert (@itsPaulAi) February 10, 2025

自分の声質でテキストから音声を瞬時に複製できる「Zonos-v0.1」が公開。話す速度や喜怒哀楽を含めた感情も調整可能。つまり音声クローンを創り上げることが出来る。オーディオファイルで学習するので、結論自分の声質以外も学習可能なので、悪用厳禁。詳細はリプ欄へ。 pic.twitter.com/VixYXJXrAG
— みるぼん@スモビジ (@milbon_) February 11, 2025

新发布的最强开源语音模型 Zonos

语音生成质量非常高，而且这次有中文

- 两种1.6B 模型，transformer 和 SSM
- 用5到30秒的语音进行高保真语音克隆
- 可以调节速度，音高，音频质量和情绪
- 添加文本和音频前缀，实现更丰富的说话人匹配效果
-在 RTX 4090 显卡上运行时，实时率约为 2 倍 pic.twitter.com/hF6qa9JqKW
— 歸藏(guizang.ai) (@op7418) February 11, 2025

This is not being talked about enough

Zonos is a new open-source voice AI model that clones any voice in under 10 seconds.

Here is how I made a voice clone of @mreflow ! pic.twitter.com/SDEkAH1HOJ
— AP (@angrypenguinPNG) February 14, 2025

Run ZONOS Locally

ZONOS, the new SOTA Open Source Voice Cloning TTS, is here.

I've managed to write a 1-click launcher for Zonos that works on Mac, Windows, and Linux (ALL platforms!)

Here's me cloning Peter Griffin's voice on my Mac. https://t.co/XLB6NEU8gE pic.twitter.com/nQcVtXE4P
— cocktail peanut (@cocktailpeanut) February 15, 2025

What the heck, this is an AI-generated voice and open source too under Apache 2.0 license. Damn! 🔥🔥

Zonos Beta is a new open-source highly expressive TTS model with high-fidelity voice cloning from @ZyphraAI

Try it here 👇pic.twitter.com/GGn877CzGp
— AshutoshShrivastava (@ai_for_success) February 10, 2025

FAQ

Questions fréquemment posées sur Zonos

Vous avez une autre question ? Contactez-nous par email.

Quelles sont les exigences système ?

Zonos nécessite Linux (de préférence Ubuntu 22.04/24.04) ou macOS, et une GPU avec 6GB+ VRAM. Le modèle hybride nécessite en plus une GPU Nvidia série 3000 ou plus récente. Zonos peut aussi fonctionner sur CPU mais sera significativement plus lent.

Puis-je exécuter Zonos sur Windows ?

Pour le support Windows expérimental, consultez le fork Windows de Zonos. Cependant, Linux ou macOS est recommandé pour la meilleure expérience.

Comment commencer avec Zonos ?

Vous pouvez essayer Zonos directement dans votre navigateur avec notre démo en ligne, ou l'installer localement avec pip ou docker. Consultez notre documentation pour des instructions d'installation et d'utilisation détaillées.

Quelles langues Zonos supporte-t-il ?

Zonos supporte actuellement l'anglais, le japonais, le chinois, le français et l'allemand. Nous travaillons continuellement à ajouter le support pour plus de langues.

Comment fonctionne le clonage vocal ?

Zonos peut cloner une voix à partir de seulement quelques secondes d'audio (10-30s recommandé). Fournissez simplement un clip audio de référence avec votre texte, et Zonos générera la parole dans cette voix.

Prêt à essayer Zonos ?

Découvrez la puissance de la synthèse vocale open-source.