VibeVoice

软件描述

VibeVoice 是一种新颖的框架,旨在从文本生成具有表现力的长篇多说话人对话音频,例如播客。它解决了传统文本到语音(TTS)系统中的诸多挑战,特别是在可扩展性、说话人一致性等方面。

官方网站

访问软件的官方网站了解更多信息

官方认证

microsoft.github.io

安全链接HTTPS

什么是 VibeVoice?

VibeVoice 是一种新颖的框架,旨在从文本生成具有表现力的、长篇的、多说话人对话音频,如播客。该框架解决了传统文本到语音(TTS)系统中的诸多挑战,特别是在可扩展性、说话人一致性以及自然的轮流对话方面。

VibeVoice 的核心创新在于采用连续语音分词器(声学分词器和语义分词器),其运行帧率低至每秒7.5帧。这些分词器在高效保持音频保真度的同时,显著提升了处理长序列的计算效率。VibeVoice 采用“下一个词扩散”框架,利用大型语言模型(LLM)理解文本上下文和对话流程,并通过扩散头生成高保真的音频细节。

该模型可合成长达90分钟、最多包含4个不同说话人的语音,超越了以往多数模型通常仅支持1到2个说话人的限制。

🔄 替代方案

54 个选择

利用先进的语音识别技术,将音频和视频内容精确转录为文字,让AI自动创建笔记,快速挖掘您需要的洞察。

免费增值 • 专有
查看详情
💻

CMU Sphinx

软件

CMU Sphinx 是一个基于 BSD 风格许可证发布的、无需特定说话人、支持大规模词汇的连续语音识别系统。它也是一组开源工具和资源的集合,使研究人员和开发者能够构建语音识别系统。

免费 • 开源
查看详情

高质量的本地语音转文字。轻松将会议、讲座等语音内容转换为文字。

免费 • 专有
查看详情
1

在 macOS 上的任何应用程序中用你的声音输入。比 ChatGPT、Google 和 OpenAI Whisper 更快、更准确。开始说话,停止打字。

免费 • 专有
查看详情
💻

Windows Speech Recognition

音频转写工具

Windows 语音识别使使用键盘和鼠标成为可选的。你可以通过语音来控制电脑,并用语音输入文字。

免费 • 专有
查看详情

Amphion 是一个用于音频、音乐和语音生成的工具包。其目的是支持可重复的研究,并帮助初级研究人员和工程师进入音频、音乐和语音生成领域的研究与开发。

免费 • 开源
查看详情
上一页
下一页

下载与相关链接

安全提示
⚠️

安全提醒

点击下方链接将跳转到第三方网站,请确保来源安全,建议优先从官方网站下载。