VibeVoice

VibeVoice
软件描述
VibeVoice 是一种新型框架,可从文本生成富有表现力的长篇多说话人对话音频,例如播客。它解决了传统文本转语音(TTS)系统中的诸多挑战,特别是在可扩展性、说话人一致性等方面……
官方网站
访问软件的官方网站了解更多信息
microsoft.github.io
安全链接HTTPS
什么是 VibeVoice?
VibeVoice 是一种新型框架,可从文本生成富有表现力、长时长、多说话人的对话音频(如播客)。它解决了传统文本转语音(TTS)系统在可扩展性、说话人一致性及自然轮换对话方面的重大挑战。
VibeVoice 的核心创新在于采用帧率极低(7.5 Hz)的连续语音标记器(声学与语义),高效保留音频保真度的同时显著提升长序列处理的计算效率。该模型采用下一标记扩散框架,利用大语言模型(LLM)理解文本上下文与对话流,并通过扩散头生成高保真声学细节。
该模型可合成长达90分钟、最多包含4位不同说话人的语音,超越了多数先前模型通常仅支持1-2位说话人的限制。