VibeVoice

软件描述

VibeVoice 是一种新型框架,可从文本生成富有表现力的长篇多说话人对话音频,例如播客。它解决了传统文本转语音(TTS)系统中的诸多挑战,特别是在可扩展性、说话人一致性等方面……

官方网站

访问软件的官方网站了解更多信息

官方认证

microsoft.github.io

安全链接HTTPS

什么是 VibeVoice?

VibeVoice 是一种新型框架,可从文本生成富有表现力、长时长、多说话人的对话音频(如播客)。它解决了传统文本转语音(TTS)系统在可扩展性、说话人一致性及自然轮换对话方面的重大挑战。
VibeVoice 的核心创新在于采用帧率极低(7.5 Hz)的连续语音标记器(声学与语义),高效保留音频保真度的同时显著提升长序列处理的计算效率。该模型采用下一标记扩散框架,利用大语言模型(LLM)理解文本上下文与对话流,并通过扩散头生成高保真声学细节。
该模型可合成长达90分钟、最多包含4位不同说话人的语音,超越了多数先前模型通常仅支持1-2位说话人的限制。

🔄 替代方案

54 个选择

几秒钟内,通过先进的说话人识别技术,将音频和视频转换为准确的文字,并让AI自动生成笔记,快速发掘您所需的关键洞察。

免费增值 • 专有
查看详情
💻

CMU Sphinx

软件

CMU Sphinx 是一个采用 BSD 风格许可证发布的与说话人无关的大词汇量连续语音识别器。它还是一套开源工具和资源的集合,允许研究人员和开发者构建语音识别系统。

免费 • 开源
查看详情

高质量的设备端语音转写。轻松将会议、讲座等的语音转换为文字。

免费 • 专有
查看详情
1

在 macOS 上的任意应用中用你的声音写作。比 ChatGPT、Google 和 OpenAI Whisper 更快更准确。开始说话,停止打字。

免费 • 专有
查看详情
💻

Windows Speech Recognition

音频转录工具

Windows 语音识别让您可选择不使用键盘和鼠标,改用语音控制电脑并进行语音输入。

免费 • 专有
查看详情

Amphion 是一个用于音频、音乐和语音生成的工具包。其目的是支持可复现的研究,并帮助初级研究人员和工程师入门音频、音乐和语音生成领域的研究与开发。

免费 • 开源
查看详情
上一页
下一页

下载与相关链接

安全提示
⚠️

安全提醒

点击下方链接将跳转到第三方网站,请确保来源安全,建议优先从官方网站下载。