Zonos Преобразование текста в речь

Ведущая модель преобразования текста в речь с открытыми весами, обученная на более чем 200 000 часов разнообразной многоязычной речи, обеспечивающая выразительность и качество на уровне или даже превосходящая ведущих поставщиков TTS.

Ключевые функции

  • TTS с нулевым выстрелом и клонированием голоса
  • Многоязычная поддержка (EN, JP, CN, FR, DE)
  • Контроль качества аудио и эмоций
  • Генерация в реальном времени (2x скорость на RTX 4090)

🎁 Испытайте будущее технологии преобразования текста в речь

Zonos Text-to-Speech Architecture

Попробовать Zonos онлайн

Испытайте мощь Zonos преобразования текста в речь прямо в браузере. Установка не требуется.

placeholder hero

Что такое Zonos

Zonos-v0.1 - это ведущая модель преобразования текста в речь с открытыми весами, обученная на более чем 200 000 часов разнообразной многоязычной речи, обеспечивающая выразительность и качество на уровне или даже превосходящая ведущих поставщиков TTS.

  • TTS с нулевым выстрелом и клонированием голоса
    Введите желаемый текст и 10-30-секундный образец говорящего для генерации высококачественного TTS-вывода с точными возможностями клонирования голоса.
  • Аудио-префиксные входы
    Добавьте текст плюс аудио-префикс для еще более богатого сопоставления говорящих и поведения, такого как шепот, которое трудно воспроизвести.
  • Точный контроль
    Контролируйте скорость речи, вариации высоты тона, качество аудио и эмоции, такие как радость, страх, грусть и гнев.
Преимущества

Почему выбирают Zonos

Получите все необходимое для высококачественной генерации преобразования текста в речь с продвинутым клонированием голоса и контролем эмоций.

Генерируйте высоко естественную речь всего за несколько секунд референсного аудио, достигая профессионального качества клонирования голоса.

Продвинутое клонирование голоса
Многоязычное превосходство
Производительность в реальном времени

Что делает Zonos особенным

Zonos - это ведущая модель преобразования текста в речь с открытыми весами, которая сочетает высокое качество, гибкость и простоту использования.

TTS с нулевым выстрелом и клонированием голоса

Введите желаемый текст и 10-30-секундный образец говорящего для генерации высококачественного TTS-вывода

Аудио-префиксные входы

Добавьте текст плюс аудио-префикс для еще более богатого сопоставления говорящих. Аудио-префиксы могут использоваться для вызова поведения, такого как шепот

Многоязычная поддержка

Zonos-v0.1 поддерживает английский, японский, китайский, французский и немецкий языки

Контроль качества аудио и эмоций

Точный контроль многих аспектов, включая скорость речи, высоту тона, максимальную частоту, качество аудио и различные эмоции

Быстрая генерация

Наша модель работает с фактором реального времени ~2x на RTX 4090 (генерирует 2 секунды аудио за 1 секунду времени вычислений)

Простая установка и развертывание

Zonos поставляется с простым в использовании интерфейсом Gradio и может быть легко установлен и развернут с помощью Docker

Отзывы

Что говорят люди

Посмотрите, что сообщество думает о Zonos.

FAQ

Часто задаваемые вопросы о Zonos

У вас есть другой вопрос? Свяжитесь с нами по электронной почте.

1

Какие системные требования?

Zonos требует Linux (предпочтительно Ubuntu 22.04/24.04) или macOS, и GPU с 6GB+ VRAM. Гибридная модель дополнительно требует GPU Nvidia серии 3000 или новее. Zonos также может работать на CPU, но будет значительно медленнее.

2

Могу ли я запустить Zonos на Windows?

Для экспериментальной поддержки Windows проверьте Windows-форк Zonos. Однако для лучшего опыта рекомендуется Linux или macOS.

3

Как начать с Zonos?

Вы можете попробовать Zonos прямо в браузере с нашей онлайн-демо или установить его локально с помощью pip или docker. Проверьте нашу документацию для подробных инструкций по установке и использованию.

4

Какие языки поддерживает Zonos?

Zonos в настоящее время поддерживает английский, японский, китайский, французский и немецкий языки. Мы постоянно работаем над добавлением поддержки для большего количества языков.

5

Как работает клонирование голоса?

Zonos может клонировать голос всего за несколько секунд аудио (рекомендуется 10-30 секунд). Просто предоставьте референсный аудио-клип вместе с вашим текстом, и Zonos сгенерирует речь этим голосом.

Готовы попробовать Zonos?

Испытайте мощь открытого исходного кода преобразования текста в речь.