雷思软件

← 返回软件列表

VibeVoice

VibeVoice

VibeVoice

文字转语音服务, 大型语言模型（LLM）工具

软件描述

VibeVoice 是一种新颖的框架，旨在从文本生成具有表现力的长篇多说话人对话音频，例如播客。它解决了传统文本到语音（TTS）系统中的诸多挑战，特别是在可扩展性、说话人一致性等方面。

官方网站

访问软件的官方网站了解更多信息

官方认证

microsoft.github.io

安全链接HTTPS

什么是 VibeVoice?

VibeVoice 是一种新颖的框架，旨在从文本生成具有表现力的、长篇的、多说话人对话音频，如播客。该框架解决了传统文本到语音（TTS）系统中的诸多挑战，特别是在可扩展性、说话人一致性以及自然的轮流对话方面。

VibeVoice 的核心创新在于采用连续语音分词器（声学分词器和语义分词器），其运行帧率低至每秒7.5帧。这些分词器在高效保持音频保真度的同时，显著提升了处理长序列的计算效率。VibeVoice 采用“下一个词扩散”框架，利用大型语言模型（LLM）理解文本上下文和对话流程，并通过扩散头生成高保真的音频细节。

该模型可合成长达90分钟、最多包含4个不同说话人的语音，超越了以往多数模型通常仅支持1到2个说话人的限制。

主要功能

✓文字转语音 ✓人工智能驱动的

🔄 替代方案

54 个选择

Sonix

Sonix

音频转写工具, 视频转录工具

★5

该软件支持超过35种语言将音频和视频转换为文本，并提供浏览器内的编辑器，实现无缝的字幕管理。通过自动字幕、语言转换和媒体播放器共享功能，支持团队协作，并通过与Zoom和Adobe的集成实现安全的数据存储。

付费 • 专有

WhisperTranscribe

WhisperTranscribe

音频转写工具

使用AI转录任何音频，并通过时间戳快速准确地获取转录文本。利用GPT提示从转录内容生成新内容，例如摘要、博客文章、社交媒体帖子或您自定义的内容。无需订阅。

付费 • 专有

SpeechPulse

SpeechPulse

音频转写工具, 视频转录工具

★4.5

SpeechPulse 是一款适用于 Windows 10/11 和苹果硅芯片 Mac 的语音转文字软件。它可将语音输入转换为文本，适用于各种文本输入场景，包括文本编辑器、网页浏览器和办公软件。SpeechPulse 完全离线运行，无需任何互联网连接。

付费 • 专有

OmniDictate

OmniDictate

音频转写工具

★5

适用于 Windows 的免费、开源、实时语音转文字工具。本地运行（无需云端！），采用人工智能技术，通过直观的图形用户界面，可直接将文字输入到任意应用程序中。

免费 • 开源

Free Podcast Transcription

Free Podcast Transcription

音频转写工具

★3.5

免费播客转录是一款完全免费的自动化转录工具，可在浏览器中使用，无需安装，完全隐私安全，且完全免费。

免费 • 专有

TranscribetoText.ai

TranscribetoText.ai

音频转写工具, 视频转录工具

TranscribeToText.ai 是一项人工智能语音转文字服务，可将音频和视频文件转换为文本，免除人工操作。该服务提供无限次转录，并每日赠送一次免费转录。平台采用人工智能技术，确保转录准确、可靠，并实现快速处理。

免费增值 • 专有

Whisper IME

Whisper IME

软件

★5

Whisper 是一种基于 Whisper 引擎的语音识别技术的输入法编辑器（IME）。它提供了流畅的用户体验，既可以作为独立应用程序使用，也可以作为集成的输入法，在需要时激活，例如

免费 • 开源

WhisperTyping

WhisperTyping

音频转写工具

★5

WhisperTyping 是一款利用 Whisper 模型的语音打字软件，可提供业界领先的语音转文字体验。您可以使用其人工智能模式，更快更准确地撰写内容，回答未解决的问题，并执行指令，全程仅需使用语音。

免费 • 专有

第 4 页，共 7 页

许可证免费 • 开源

支持平台

Python 自助式托管 Hugging Face

标签

人工智能模型

下载与相关链接

安全提示

⚠️

安全提醒

点击下方链接将跳转到第三方网站，请确保来源安全，建议优先从官方网站下载。