雷思软件

← 返回软件列表

VibeVoice

VibeVoice

VibeVoice

文字转语音服务, 大型语言模型（LLM）工具

软件描述

VibeVoice 是一种新颖的框架，旨在从文本生成具有表现力的长篇多说话人对话音频，例如播客。它解决了传统文本到语音（TTS）系统中的诸多挑战，特别是在可扩展性、说话人一致性等方面。

官方网站

访问软件的官方网站了解更多信息

官方认证

microsoft.github.io

安全链接HTTPS

什么是 VibeVoice?

VibeVoice 是一种新颖的框架，旨在从文本生成具有表现力的、长篇的、多说话人对话音频，如播客。该框架解决了传统文本到语音（TTS）系统中的诸多挑战，特别是在可扩展性、说话人一致性以及自然的轮流对话方面。

VibeVoice 的核心创新在于采用连续语音分词器（声学分词器和语义分词器），其运行帧率低至每秒7.5帧。这些分词器在高效保持音频保真度的同时，显著提升了处理长序列的计算效率。VibeVoice 采用“下一个词扩散”框架，利用大型语言模型（LLM）理解文本上下文和对话流程，并通过扩散头生成高保真的音频细节。

该模型可合成长达90分钟、最多包含4个不同说话人的语音，超越了以往多数模型通常仅支持1到2个说话人的限制。

主要功能

✓文字转语音 ✓人工智能驱动的

🔄 替代方案

54 个选择

Fluid AI

Fluid AI

音频转写工具

无需支付即可将语音转换为文字。Fluid 利用 NVIDIA 最快的 AI 模型，可立即在您的 Mac 上本地处理语音转文字，全程保障隐私。

免费 • 开源

Audiotype - Audio & Video Transcription

Audiotype - Audio & Video Transcription

音频转写工具, 视频转录工具

★4.9

Audiotype是一款将音频和视频文件转换为可编辑文本字幕和字幕的转录软件。已有超过10000名用户使用Audiotype将他们的媒体文件（视频、播客、录音、MP4、MP3、访谈等）转录为可导出的字幕或字幕文本。

免费增值 • 专有

Superwhisper

Superwhisper

音频转写工具

★5

借助支持 Mac 和 iPhone 的离线语音转文字功能，将口语内容转化为格式完美的文档、邮件和笔记。这款无广告、基于人工智能的工具，结合 Whisper-AI 技术，可实现流畅的转录和高效的语音输入功能。

免费增值 • 专有

HoldSpeak

HoldSpeak

音频转写工具

★1

HoldSpeak 是一款人工智能驱动的应用程序，可让你的打字速度提升三倍。它支持超过100种语言，并且完全支持离线使用。

付费 • 专有

Speak AI

Speak AI

软件

由人工智能驱动的平台可采集、转录和分析音频、视频及文本内容，通过会议助手和API为电话通话、会议及非结构化数据提供洞察。支持99多种语言的翻译，能够识别关键词、执行情感分析，并对定性研究数据进行整理。

付费 • 专有

MacScribe

MacScribe

音频转写工具, 视频转录工具

★5

MacScribe 可让您轻松在笔记本电脑上转录任何 YouTube 视频、音频或视频文件，或通过麦克风进行录音。使用 MacScribe，您可以为最喜欢的视频、讲座、会议等创建字幕。

付费 • 专有

Castmagic

Castmagic

音频转写工具, 视频转录工具

★5

一种由人工智能驱动的工具，可将音频转换为多种内容形式，如文章、问答等。无论上传文件、同步内容源还是导入链接，该工具都能在几秒钟内实现文案生成、编辑和草稿制作。非常适合需要快速高效地进行内容转换的创作者。

付费 • 专有

WhisperBuddy

WhisperBuddy

音频转写工具

使用人工智能精确转录音频为文字，轻松编辑，并以任何格式导出——所有操作均在您的 Mac 上完全隐私保护。

免费增值 • 专有

第 3 页，共 7 页

许可证免费 • 开源

支持平台

Python 自助式托管 Hugging Face

标签

人工智能模型

下载与相关链接

安全提示

⚠️

安全提醒

点击下方链接将跳转到第三方网站，请确保来源安全，建议优先从官方网站下载。