Zonos テキスト読み上げ

20万時間以上の多言語音声でトレーニングされた最先端のオープンウェイトテキスト読み上げモデルで、表現力と品質においてトップTTSプロバイダーに匹敵し、さらには凌駕します。

主要機能

  • ゼロショットTTSと音声クローニング
  • 多言語サポート(英語、日本語、中国語、フランス語、ドイツ語)
  • 音声品質と感情制御
  • リアルタイム生成(RTX 4090で2倍速度)

🎁 テキスト読み上げ技術の未来を体験

Zonos Text-to-Speech Architecture

Zonosをオンラインで試す

ブラウザで直接Zonosテキスト読み上げのパワーを体験。インストール不要。

placeholder hero

Zonosとは

Zonos-v0.1は、20万時間以上の多言語音声でトレーニングされた最先端のオープンウェイトテキスト読み上げモデルで、表現力と品質においてトップTTSプロバイダーに匹敵し、さらには凌駕します。

  • ゼロショットTTSと音声クローニング
    希望するテキストと10-30秒の話者サンプルを入力して、正確な音声クローニング機能を持つ高品質TTS出力を生成。
  • 音声プレフィックス入力
    テキストと音声プレフィックスを追加して、より豊富な話者マッチングと、ささやきなど再現が困難な行動を実現。
  • 細かい制御
    話速、ピッチ変動、音声品質、喜び、恐れ、悲しみ、怒りなどの感情を制御。
利点

Zonosを選ぶ理由

高度な音声クローニングと感情制御を備えた高品質テキスト読み上げ生成に必要なすべてを入手。

わずか数秒の参照音声で高度に自然な音声を生成し、プロフェッショナル品質の音声クローニングを実現。

高度な音声クローニング
多言語エクセレンス
リアルタイムパフォーマンス

Zonosの特別な点

Zonosは、高品質、柔軟性、使いやすさを組み合わせた最先端のオープンウェイトテキスト読み上げモデルです。

ゼロショットTTSと音声クローニング

希望するテキストと10-30秒の話者サンプルを入力して高品質TTS出力を生成

音声プレフィックス入力

テキストと音声プレフィックスを追加して、より豊富な話者マッチングを実現。音声プレフィックスはささやきなどの行動を引き出すために使用可能

多言語サポート

Zonos-v0.1は英語、日本語、中国語、フランス語、ドイツ語をサポート

音声品質と感情制御

話速、ピッチ、最大周波数、音声品質、様々な感情など、多くの側面の細かい制御

高速生成

RTX 4090で約2倍のリアルタイムファクター(1秒の計算時間で2秒の音声を生成)で動作

簡単なインストールとデプロイ

Zonosは使いやすいGradioインターフェースを備えており、Dockerで簡単にインストールとデプロイが可能

お客様の声

人々が言っていること

コミュニティがZonosについてどう思っているかを見てください。

よくある質問

Zonosに関するよくある質問

他に質問がありますか?メールでお問い合わせください。

1

システム要件は何ですか?

ZonosはLinux(推奨Ubuntu 22.04/24.04)またはmacOS、6GB+ VRAMを備えたGPUが必要です。ハイブリッドモデルはさらに3000シリーズ以降のNvidia GPUが必要です。ZonosはCPUでも動作しますが、大幅に遅くなります。

2

WindowsでZonosを実行できますか?

実験的なWindowsサポートについては、ZonosのWindowsフォークをご確認ください。ただし、最高の体験のためにはLinuxまたはmacOSが推奨されます。

3

Zonosの使い方を教えてください

オンラインデモでブラウザで直接Zonosを試すか、pipまたはdockerでローカルにインストールできます。詳細なインストールと使用方法についてはドキュメントをご確認ください。

4

Zonosはどの言語をサポートしていますか?

Zonosは現在英語、日本語、中国語、フランス語、ドイツ語をサポートしています。より多くの言語のサポートを追加するために継続的に取り組んでいます。

5

音声クローニングはどのように動作しますか?

Zonosはわずか数秒の音声(推奨10-30秒)から音声をクローンできます。テキストと一緒に参照音声クリップを提供するだけで、Zonosはその音声で音声を生成します。

Zonosを試す準備はできていますか?

オープンソーステキスト読み上げのパワーを体験してください。