VibeVoice 텍스트 음성 변환

텍스트에서 표현력 있는 긴 대화형 다중 화자 오디오를 생성하는 혁신적인 프레임워크입니다. 초저주파 토크나이저와 다음 토큰 확산 기술을 사용하여 최대 4명의 서로 다른 화자로 90분까지 고품질 음성 합성을 생성합니다.

주요 기능

•긴 대화형 오디오 생성 (최대 90분)
•다중 화자 지원 (최대 4명의 서로 다른 화자)
•초저주파 토크나이저 (7.5 Hz)
•다음 토큰 확산 프레임워크

🎁 대화형 텍스트 음성 변환 기술의 미래를 경험하세요

VibeVoice란 무엇인가

VibeVoice는 텍스트에서 표현력 있는 긴 대화형 다중 화자 오디오를 생성하도록 설계된 혁신적인 프레임워크입니다. 특히 확장성, 화자 일관성, 자연스러운 대화 전환 측면에서 기존 TTS 시스템의 중요한 과제를 해결합니다.

연속 음성 토크나이저
7.5 Hz의 초저주파로 작동하는 음향 및 의미 토크나이저를 사용하여 오디오 충실도를 효율적으로 보존하면서 계산 효율성을 크게 향상시킵니다.
다음 토큰 확산 프레임워크
대형 언어 모델을 활용하여 텍스트 맥락과 대화 흐름을 이해하고, 확산 헤드로 고품질 음향 세부사항을 생성합니다.
긴 대화형 다중 화자 지원
최대 4명의 서로 다른 화자로 최대 90분까지 음성을 합성하여 기존 모델의 일반적인 1-2명 화자 제한을 뛰어넘습니다.

장점

VibeVoice를 선택하는 이유

전례 없는 확장성과 자연스러운 대화 생성 능력을 갖춘 대화형 텍스트 음성 변환 기술의 혁신을 경험하세요.

최대 90분까지의 대화형 오디오를 생성하여 팟캐스트, 인터뷰, 확장된 대화에 완벽합니다.

VibeVoice를 특별하게 만드는 것

VibeVoice는 혁신적인 아키텍처와 전례 없는 능력으로 대화형 텍스트 음성 변환 기술을 혁신하는 돌파구 프레임워크입니다.

연속 음성 토크나이저

효율적인 긴 시퀀스 처리를 위해 7.5 Hz의 초저주파로 작동하는 음향 및 의미 토크나이저

다음 토큰 확산 프레임워크

LLM 이해와 확산 헤드를 결합하여 고품질 음향 세부사항을 생성

긴 대화형 다중 화자 지원

최대 4명의 서로 다른 화자로 최대 90분까지 자연스러운 대화 오디오를 생성

표현력 있는 대화형 오디오

팟캐스트, 인터뷰, 다중 화자 대화를 위해 특별히 설계되어 자연스러운 대화 전환을 제공

확장 가능한 아키텍처

확장성, 화자 일관성, 자연스러운 대화 흐름 측면에서 기존 TTS의 과제를 해결

연구 프레임워크

음성 합성 커뮤니티의 협업 발전을 목표로 하는 오픈소스 연구 프레임워크

고객 후기

사람들이 말하는 것

커뮤니티가 VibeVoice에 대해 어떻게 생각하는지 확인하세요.

Been playing with Microsoft’s VibeVoice, MIT-licensed TTS that does ~90-minute narrations, multi-speaker, cross-lingual.

Streaming and a larger checkpoint are coming. Let’s just say it drops neatly into a local-first stack I care about. pic.twitter.com/TCxDcmAgDj
— Sai (@SAIT112024) August 30, 2025

VibeVoice might be the best FREE text to speech & voice cloner right now.

- Over 90min generations
- Up to 4 speakers
- Auto expressions
- Can run on consumer GPUs

See my full tutorial: https://t.co/UnbBzSMZA9 pic.twitter.com/yFDaqEbd5U
— ⚡AI Search⚡ (@aisearchio) September 3, 2025

VibeVoice 复活啦！

我是没想到 VibeVoice 都快变成电视剧了，最近社区爱好者们自发的从VibeVoice 历史提交中成功找回了未经河蟹的版本，然后放到了 HuggingFace。由于微软当初是 MIT协议发布的，所以微软也没办法下架这个恢复出来的模型了。

总之，如果你想用 VibeVoice… pic.twitter.com/VxMAklY8kL
— karminski-牙医 (@karminski3) September 15, 2025

微软新开源了这个 VibeVoice TTS模型很强

- 支持最多生成 90 分钟时长
- 最多4 个人的对谈语音，以往模型只能生成两个
- 支持中文，而且中文效果不错
- 支持生成带背景音乐的播客音频 pic.twitter.com/gnHDl3Apmj
— 歸藏(guizang.ai) (@op7418) August 26, 2025

💬 Microsoft > VibeVoice 모델 공개

마이크로소프트에서 공개한 VibeVoice는 텍스트를 입력받아 자연스러운 대화 형식의 오디오를 생성하는 오픈소스 TTS(Text-to-Speech) 모델이에요.

VibeVoice: A Frontier Open-Source Text-to-Speech Modelhttps://t.co/iveNf3unot

Hugging Face… pic.twitter.com/BSlyQItasF
— lucas (@lucas_flatwhite) September 2, 2025

【速報🔥】超高性能TTS「VibeVoice」がコミュニティ主導で劇的復活🎉 長時間＆複数人会話音声生成がクリエイターの強力な武器に！
Microsoftが中止した超高性能TTS「VibeVoice」が、コミュニティの情熱で「VibeVoice-Community」として劇的復活しましたよ！🎉… pic.twitter.com/n2k5ROEzQv
— ハカセアイ(Ai-Hakase)🐾最新トレンドＡＩのためのＸ 🐾 (@ai_hakase_) September 15, 2025

자주 묻는 질문

VibeVoice에 대한 자주 묻는 질문

다른 질문이 있으신가요? 이메일로 문의해 주세요.

VibeVoice는 무엇을 위해 설계되었나요?

VibeVoice는 팟캐스트, 인터뷰, 확장된 대화와 같은 표현력 있는 긴 대화형 다중 화자 오디오를 텍스트 입력에서 생성하도록 설계되었습니다.

VibeVoice는 얼마나 긴 오디오를 생성할 수 있나요?

VibeVoice는 최대 90분까지 음성을 합성할 수 있으며, 이는 일반적으로 훨씬 짧은 시퀀스를 처리하는 기존 TTS 시스템을 크게 뛰어넘습니다.

VibeVoice는 몇 명의 화자를 처리할 수 있나요?

VibeVoice는 단일 대화에서 최대 4명의 서로 다른 화자를 지원하며, 전체 오디오에서 자연스러운 대화 전환과 화자 일관성을 유지합니다.

VibeVoice는 어떤 언어를 지원하나요?

VibeVoice는 현재 영어와 중국어를 지원합니다. 다른 언어의 텍스트는 예상치 못한 오디오 출력을 초래할 수 있습니다.

VibeVoice는 상업적 사용에 적합한가요?

VibeVoice는 연구 및 개발 목적으로만 사용됩니다. 추가 테스트 및 개발 없이 상업적 또는 실제 애플리케이션에서 사용하는 것을 권장하지 않습니다.

VibeVoice를 시도할 준비가 되셨나요?

대화형 텍스트 음성 변환 기술의 강력함을 경험하세요.