雷思软件

← 返回软件列表

VibeVoice

VibeVoice

VibeVoice

文字转语音服务, 大型语言模型（LLM）工具

软件描述

VibeVoice 是一种新颖的框架，旨在从文本生成具有表现力的长篇多说话人对话音频，例如播客。它解决了传统文本到语音（TTS）系统中的诸多挑战，特别是在可扩展性、说话人一致性等方面。

官方网站

访问软件的官方网站了解更多信息

官方认证

microsoft.github.io

安全链接HTTPS

什么是 VibeVoice?

VibeVoice 是一种新颖的框架，旨在从文本生成具有表现力的、长篇的、多说话人对话音频，如播客。该框架解决了传统文本到语音（TTS）系统中的诸多挑战，特别是在可扩展性、说话人一致性以及自然的轮流对话方面。

VibeVoice 的核心创新在于采用连续语音分词器（声学分词器和语义分词器），其运行帧率低至每秒7.5帧。这些分词器在高效保持音频保真度的同时，显著提升了处理长序列的计算效率。VibeVoice 采用“下一个词扩散”框架，利用大型语言模型（LLM）理解文本上下文和对话流程，并通过扩散头生成高保真的音频细节。

该模型可合成长达90分钟、最多包含4个不同说话人的语音，超越了以往多数模型通常仅支持1到2个说话人的限制。

主要功能

✓文字转语音 ✓人工智能驱动的

🔄 替代方案

54 个选择

txtplay.ai

txtplay.ai

音频转写工具, 视频转录工具

★5

Txtplay 提供云端和本地化解决方案，支持按需和实时转录、实时字幕生成以及自动翻译。

付费 • 专有

Whisper Mate

Whisper Mate

软件

★5

使用 OpenAI 的 Whisper AI 模型批量将音频文件或视频文件转录为文本。提供嵌入式字幕编辑器，可逐段预览转录结果。所有转录操作均在本地设备上完成，保障您的隐私安全。

免费增值 • 专有

AI Audio Kit

AI Audio Kit

音频转写工具

一个简单直接的 macOS 应用程序，允许用户从 macOS 桌面使用不同的 Whisper 服务（OpenAI API、Runpod Faster Whisper）。您可以使用自己的 API 密钥，确保仅对实际使用的服务产生费用。

付费 • 专有

💻

Nerd Dictation

软件

使用 VOSK-API 的简单、可定制的离线语音转文本功能。

免费 • 开源

Supernormal

Supernormal

视频转录工具

Supernormal 是一个AI平台，可帮助你将会议纪要的撰写速度提升20倍。

免费增值 • 专有

Buzz Captions

Buzz Captions

音频转写工具

★5

Buzz Captions 是一款基于 OpenAI Whisper 模型的离线音频转录与翻译工具，用户可以导入音频和视频文件，生成 CSV、SRT、TXT 和 VTT 格式的字幕文本。

付费 • 开源

Letterly

Letterly

音频转写工具, 笔记工具

★5

Letterly 是一款移动应用，可将任意语音转换为清晰且结构良好的文本。它不仅仅是语音转文字。借助人工智能技术，你可以将语音转化为结构化的笔记、吸引人的社交媒体帖子、可读的会议纪要、正式的邮件等。

免费增值 • 专有

Monologue

Monologue

音频转写工具

流畅完美的语音输入。

免费 • 专有

第 6 页，共 7 页

许可证免费 • 开源

支持平台

Python 自助式托管 Hugging Face

标签

人工智能模型

下载与相关链接

安全提示

⚠️

安全提醒

点击下方链接将跳转到第三方网站，请确保来源安全，建议优先从官方网站下载。