雷思软件

← 返回软件列表

VibeVoice

VibeVoice

VibeVoice

文字转语音服务, 大型语言模型（LLM）工具

软件描述

VibeVoice 是一种新颖的框架，旨在从文本生成具有表现力的长篇多说话人对话音频，例如播客。它解决了传统文本到语音（TTS）系统中的诸多挑战，特别是在可扩展性、说话人一致性等方面。

官方网站

访问软件的官方网站了解更多信息

官方认证

microsoft.github.io

安全链接HTTPS

什么是 VibeVoice?

VibeVoice 是一种新颖的框架，旨在从文本生成具有表现力的、长篇的、多说话人对话音频，如播客。该框架解决了传统文本到语音（TTS）系统中的诸多挑战，特别是在可扩展性、说话人一致性以及自然的轮流对话方面。

VibeVoice 的核心创新在于采用连续语音分词器（声学分词器和语义分词器），其运行帧率低至每秒7.5帧。这些分词器在高效保持音频保真度的同时，显著提升了处理长序列的计算效率。VibeVoice 采用“下一个词扩散”框架，利用大型语言模型（LLM）理解文本上下文和对话流程，并通过扩散头生成高保真的音频细节。

该模型可合成长达90分钟、最多包含4个不同说话人的语音，超越了以往多数模型通常仅支持1到2个说话人的限制。

主要功能

✓文字转语音 ✓人工智能驱动的

🔄 替代方案

54 个选择

Notta

Notta

音频转写工具, 视频转录工具

★3.7

通过人工智能将音频转换为可编辑的文本，支持录音、翻译和摘要功能。适用于会议场景，提供实时转录和工具集成。

免费增值 • 专有

Vscoped

Vscoped

音频转写工具, 视频转录工具

Vscoped 是一项人工智能驱动的转录服务，内置了向视频内容添加硬编码字幕的功能。

付费 • 专有

Speech to Note

Speech to Note

软件

★4.9

“语音转笔记”是一款前沿的AI驱动工具，可将您的语音内容无缝转换为简洁且信息丰富的摘要。

免费增值 • 专有

Good Tape

Good Tape

音频转写工具

一款免费、安全且易于使用的自动字幕服务，几分钟内即可生成令人惊叹的字幕。丹麦出品，专为记者及其他用户打造。

免费增值 • 专有

Transcriptor

Transcriptor

音频转写工具

使用这款操作简便的工具，高效地将语音转换为文字。支持实时转录，并将内容安全存储在iCloud中，支持从英语到越南语的20种语言。

付费 • 专有

AudioPen

AudioPen

音频转写工具

★4

将语音转化为简洁、概括的文本，去除冗余词句。提供高级付费功能，如写作风格定制、长度控制和笔记导出，以提升日记记录和内容创作体验。

免费增值 • 专有

Podium.page

Podium.page

音频转写工具

Podium 是一家终极的播客编辑服务，它利用人工智能生成的节目简介、摘要、章节、字幕和精彩片段，大幅提升您的后期制作流程。借助 Podium 的人工智能写作软件，您可以生成高质量的节目简介和摘要，……

免费增值 • 专有

DeepGram

DeepGram

音频转写工具

使用世界级的语音识别和领域专用语言模型（DSLMs）来赋能您的应用。准确无误，速度快，可满足企业级扩展需求，价格极具竞争力。开发者所需的一切，助您安心构建，更快上线。

免费增值 • 专有

第 5 页，共 7 页

许可证免费 • 开源

支持平台

Python 自助式托管 Hugging Face

标签

人工智能模型

下载与相关链接

安全提示

⚠️

安全提醒

点击下方链接将跳转到第三方网站，请确保来源安全，建议优先从官方网站下载。