VibeVoice 텍스트 음성 변환
텍스트에서 표현력 있는 긴 대화형 다중 화자 오디오를 생성하는 혁신적인 프레임워크입니다. 초저주파 토크나이저와 다음 토큰 확산 기술을 사용하여 최대 4명의 서로 다른 화자로 90분까지 고품질 음성 합성을 생성합니다.
주요 기능
- •긴 대화형 오디오 생성 (최대 90분)
- •다중 화자 지원 (최대 4명의 서로 다른 화자)
- •초저주파 토크나이저 (7.5 Hz)
- •다음 토큰 확산 프레임워크
🎁 대화형 텍스트 음성 변환 기술의 미래를 경험하세요

VibeVoice 온라인으로 체험하기
브라우저에서 직접 VibeVoice 텍스트 음성 변환의 강력함을 경험하세요. 설치가 필요하지 않습니다.

VibeVoice란 무엇인가
VibeVoice는 텍스트에서 표현력 있는 긴 대화형 다중 화자 오디오를 생성하도록 설계된 혁신적인 프레임워크입니다. 특히 확장성, 화자 일관성, 자연스러운 대화 전환 측면에서 기존 TTS 시스템의 중요한 과제를 해결합니다.
- 연속 음성 토크나이저7.5 Hz의 초저주파로 작동하는 음향 및 의미 토크나이저를 사용하여 오디오 충실도를 효율적으로 보존하면서 계산 효율성을 크게 향상시킵니다.
- 다음 토큰 확산 프레임워크대형 언어 모델을 활용하여 텍스트 맥락과 대화 흐름을 이해하고, 확산 헤드로 고품질 음향 세부사항을 생성합니다.
- 긴 대화형 다중 화자 지원최대 4명의 서로 다른 화자로 최대 90분까지 음성을 합성하여 기존 모델의 일반적인 1-2명 화자 제한을 뛰어넘습니다.
VibeVoice를 선택하는 이유
전례 없는 확장성과 자연스러운 대화 생성 능력을 갖춘 대화형 텍스트 음성 변환 기술의 혁신을 경험하세요.



VibeVoice를 특별하게 만드는 것
VibeVoice는 혁신적인 아키텍처와 전례 없는 능력으로 대화형 텍스트 음성 변환 기술을 혁신하는 돌파구 프레임워크입니다.
연속 음성 토크나이저
효율적인 긴 시퀀스 처리를 위해 7.5 Hz의 초저주파로 작동하는 음향 및 의미 토크나이저
다음 토큰 확산 프레임워크
LLM 이해와 확산 헤드를 결합하여 고품질 음향 세부사항을 생성
긴 대화형 다중 화자 지원
최대 4명의 서로 다른 화자로 최대 90분까지 자연스러운 대화 오디오를 생성
표현력 있는 대화형 오디오
팟캐스트, 인터뷰, 다중 화자 대화를 위해 특별히 설계되어 자연스러운 대화 전환을 제공
확장 가능한 아키텍처
확장성, 화자 일관성, 자연스러운 대화 흐름 측면에서 기존 TTS의 과제를 해결
연구 프레임워크
음성 합성 커뮤니티의 협업 발전을 목표로 하는 오픈소스 연구 프레임워크
사람들이 말하는 것
커뮤니티가 VibeVoice에 대해 어떻게 생각하는지 확인하세요.
Been playing with Microsoft’s VibeVoice, MIT-licensed TTS that does ~90-minute narrations, multi-speaker, cross-lingual.
— Sai (@SAIT112024) August 30, 2025
Streaming and a larger checkpoint are coming. Let’s just say it drops neatly into a local-first stack I care about. pic.twitter.com/TCxDcmAgDj
VibeVoice might be the best FREE text to speech & voice cloner right now.
— ⚡AI Search⚡ (@aisearchio) September 3, 2025
- Over 90min generations
- Up to 4 speakers
- Auto expressions
- Can run on consumer GPUs
See my full tutorial: https://t.co/UnbBzSMZA9 pic.twitter.com/yFDaqEbd5U
VibeVoice 复活啦!
— karminski-牙医 (@karminski3) September 15, 2025
我是没想到 VibeVoice 都快变成 电视剧了,最近社区爱好者们自发的从VibeVoice 历史提交中成功找回了未经河蟹的版本,然后放到了 HuggingFace。由于微软当初是 MIT协议发布的,所以微软也没办法下架这个恢复出来的模型了。
总之,如果你想用 VibeVoice… pic.twitter.com/VxMAklY8kL
微软新开源了这个 VibeVoice TTS模型很强
— 歸藏(guizang.ai) (@op7418) August 26, 2025
- 支持最多生成 90 分钟时长
- 最多4 个人的对谈语音,以往模型只能生成两个
- 支持中文,而且中文效果不错
- 支持生成带背景音乐的播客音频 pic.twitter.com/gnHDl3Apmj
💬 Microsoft > VibeVoice 모델 공개
— lucas (@lucas_flatwhite) September 2, 2025
마이크로소프트에서 공개한 VibeVoice는 텍스트를 입력받아 자연스러운 대화 형식의 오디오를 생성하는 오픈소스 TTS(Text-to-Speech) 모델이에요.
VibeVoice: A Frontier Open-Source Text-to-Speech Modelhttps://t.co/iveNf3unot
Hugging Face… pic.twitter.com/BSlyQItasF
【速報🔥】超高性能TTS「VibeVoice」がコミュニティ主導で劇的復活🎉 長時間&複数人会話音声生成がクリエイターの強力な武器に!
— ハカセ アイ(Ai-Hakase)🐾最新トレンドAIのためのX 🐾 (@ai_hakase_) September 15, 2025
Microsoftが中止した超高性能TTS「VibeVoice」が、コミュニティの情熱で「VibeVoice-Community」として劇的復活しましたよ!🎉… pic.twitter.com/n2k5ROEzQv
VibeVoice에 대한 자주 묻는 질문
다른 질문이 있으신가요? 이메일로 문의해 주세요.
VibeVoice는 무엇을 위해 설계되었나요?
VibeVoice는 팟캐스트, 인터뷰, 확장된 대화와 같은 표현력 있는 긴 대화형 다중 화자 오디오를 텍스트 입력에서 생성하도록 설계되었습니다.
VibeVoice는 얼마나 긴 오디오를 생성할 수 있나요?
VibeVoice는 최대 90분까지 음성을 합성할 수 있으며, 이는 일반적으로 훨씬 짧은 시퀀스를 처리하는 기존 TTS 시스템을 크게 뛰어넘습니다.
VibeVoice는 몇 명의 화자를 처리할 수 있나요?
VibeVoice는 단일 대화에서 최대 4명의 서로 다른 화자를 지원하며, 전체 오디오에서 자연스러운 대화 전환과 화자 일관성을 유지합니다.
VibeVoice는 어떤 언어를 지원하나요?
VibeVoice는 현재 영어와 중국어를 지원합니다. 다른 언어의 텍스트는 예상치 못한 오디오 출력을 초래할 수 있습니다.
VibeVoice는 상업적 사용에 적합한가요?
VibeVoice는 연구 및 개발 목적으로만 사용됩니다. 추가 테스트 및 개발 없이 상업적 또는 실제 애플리케이션에서 사용하는 것을 권장하지 않습니다.
VibeVoice를 시도할 준비가 되셨나요?
대화형 텍스트 음성 변환 기술의 강력함을 경험하세요.