VibeVoice新一代开源文本转语音模型

实现90分钟、多角色播客生成,拓展语音合成新边界。由微软亚洲研究院推出的开源 TTS 模型。

什么是 VibeVoice?

VibeVoice 是微软亚洲研究院推出的全新语音生成模型,采用 next-token diffusion 机制,实现长达90分钟、支持最多4人自然对话的高质量语音生成。VibeVoice 生成的语音中,能听到说话人自然的呼吸、恰到好处的停顿,甚至偶尔的唇齿音,仿佛真的有人在你耳边交谈。

90

分钟连续音频生成

4

多角色对话支持

7.5

Hz 超低帧率编码

核心能力

VibeVoice 的三大核心能力

超长时长生成

支持生成最长90分钟的连续高质量音频,突破了传统语音生成模型的时间限制。采用超低帧率压缩技术(7.5Hz),大幅降低计算负担。

多角色自然互动

最多可支持4位不同说话人,每位角色拥有独立的音色与说话风格,且在整段对话中保持一致。自动呈现角色切换时的呼吸声、停顿等非语言提示。

细节拟真与氛围生成

能够自然呈现呼吸声、顿挫感和对话间的停顿等细节,还能在适当场景中加入背景音乐、清唱等,增强氛围感。

LatentLM 架构

采用 LatentLM next-token diffusion 生成框架,通过变分自编码器(VAE)将语音编码为连续潜在向量,实现自回归式的连续语音生成。

开源可部署

MIT/Apache 开源授权,可免费使用和本地部署,降低开发者和创作者的使用门槛。

中英双语支持

对中文普通话和英语表现优秀,支持中英混合朗读,适合国际化内容创作。

技术原理

Next-Token Diffusion 机制

使用变分自编码器(VAE)将语音波形编码为连续的潜在向量序列,保留音色、语调、节奏等关键信息。通过因果 Transformer 架构逐步预测下一个语音片段。

低帧率压缩技术

将帧率压缩至 7.5fps,生成90分钟的音频只需处理约6.4万个 token,计算量大幅降低的同时保持音质表现。

多角色协同生成

通过角色标签自然进行音色切换,自动加入呼吸声、停顿、口音变化等非语言提示,减少角色转换的突兀感。

上下文深度理解

VibeVoice 的核心在于模型对上下文的深度理解能力,使其在语调控制和自发性语言生成方面展现出接近人类表现的自然度。

应用场景

播客制作

只需提供带角色标注的脚本,就能自动生成多人对话播客音频。

有声书

将小说、文章转化为自然流畅的长篇语音内容。

视频配音

为视频内容快速生成高质量配音,支持多角色。

在线教育

创建生动的教学音频,支持多语言教学场景。

广告制作

快速生成广告音频,节省配音成本和时间。

娱乐内容

角色扮演、剧情对白、虚拟人物对话。

FAQ

VibeVoice 是免费的吗?
是的,VibeVoice 是开源的,采用 MIT/Apache 许可证,可以免费使用和本地部署。
支持哪些语言?
目前主要支持中文普通话和英语,中英混合效果也很好。
能生成多长的音频?
最长可生成约90分钟的连续高质量音频。
需要什么硬件?
推荐使用 NVIDIA GPU(2080/3060/4060+)以获得更好的生成速度,但也支持 CPU 运行(速度较慢)。
最多支持几个说话人?
VibeVoice 最多支持4位不同说话人,每位角色保持独立一致的音色。