VibeVoice

官方网站

访问软件的官方网站了解更多信息

官方认证

microsoft.github.io

安全链接HTTPS

什么是 VibeVoice?

VibeVoice 是一种新型框架，可从文本生成富有表现力、长时长、多说话人的对话音频（如播客）。它解决了传统文本转语音（TTS）系统在可扩展性、说话人一致性及自然轮换对话方面的重大挑战。
VibeVoice 的核心创新在于采用帧率极低（7.5 Hz）的连续语音标记器（声学与语义），高效保留音频保真度的同时显著提升长序列处理的计算效率。该模型采用下一标记扩散框架，利用大语言模型（LLM）理解文本上下文与对话流，并通过扩散头生成高保真声学细节。
该模型可合成长达90分钟、最多包含4位不同说话人的语音，超越了多数先前模型通常仅支持1-2位说话人的限制。

主要功能

✓ 语音朗读 ✓ 人工智能驱动

雷思软件

VibeVoice

软件描述

官方网站

什么是 VibeVoice?

主要功能

支持平台

标签

下载与相关链接