Amphion

软件描述

Amphion 是一个用于音频、音乐和语音生成的工具包。其目的是支持可重复的研究,并帮助初级研究人员和工程师进入音频、音乐和语音生成领域的研究与开发。

官方网站

访问软件的官方网站了解更多信息

官方认证

openhlt.github.io

安全链接HTTPS

什么是 Amphion?

Amphion 是一个用于音频、音乐和语音生成的工具包。其目标是支持可复现的研究,并帮助初级研究人员和工程师在音频、音乐和语音生成领域的研究与开发中快速入门。Amphion 拥有独特功能:提供经典模型或架构的可视化展示。我们相信,这些可视化对希望深入理解模型的初级研究人员和工程师具有重要意义。

Amphion 的核心目标是提供一个平台,用于研究如何将任意输入转换为音频。Amphion 被设计为支持多种独立生成任务,包括但不限于:

TTS:文本到语音
SVS:歌唱语音合成
VC:语音转换
SVC:歌唱语音转换
TTA:文本到音频
TTM:文本到音乐
更多……

除了具体的生成任务,Amphion 还包含多种语音编码器(vocoder)和评估指标。语音编码器是生成高质量音频信号的重要模块,而评估指标则对于确保生成任务中结果的一致性至关重要。此外,Amphion 专注于推动音频生成在实际应用场景中的发展,例如构建大规模语音合成数据集。

🔄 替代方案

67 个选择

Vibe 是一项自动语音转录服务,利用本地语言学习模型(LLMs)或人工智能技术,为多种语言提供转录服务。该服务注重用户隐私,提供完全离线的转录功能,确保数据永远不会……

免费 • 开源
查看详情

Voxtral 模型是前沿的语音理解模型,提供两种尺寸版本:一种是 240 亿参数版本,适用于大规模生产场景;另一种是 30 亿参数版本,适用于本地和边缘设备部署。两种版本均采用 Apache 2.0 开源许可证发布。

免费增值 • 开源
查看详情
FUTO Voice Input

FUTO Voice Input

音频转写工具

4.8

FUTO语音输入是一款适用于Android的语音转文本应用程序,可与第三方键盘或使用通用语音转文本API的应用程序集成。

免费 • 开源
查看详情
4.5

Whisper 是一个通用的语音识别模型。它在大量多样化的音频数据集上进行训练,同时是一个多任务模型,能够执行多语言语音识别、语音翻译和语言识别。

免费增值 • 开源
查看详情

在您的 Mac 上畅享无缝的语音转文字功能。说出您的想法,让现代人工智能为您完成打字——无需隐藏的数据收集,也无任何干扰。

免费 • 专有
查看详情
Moonshine AI

Moonshine AI

音频转写工具

Moonshine 是一系列为在资源受限设备上实现快速且准确的自动语音识别(ASR)而优化的语音转文本模型,适用于实时、本地化应用,如实时字幕转录和语音指令识别。

免费 • 开源
查看详情
2

TalkNotes利用支持100多种语言的AI语音识别技术,将音频转换为结构化的笔记、待办事项、记忆卡片和字幕。可自动将讲座、会议或任何讲话内容转化为可操作的文本,确保任务不会丢失,并为所有用户提供了易于使用的访问体验。

付费 • 专有
查看详情

一款免费、开源且可扩展的语音转文本应用,可完全在离线状态下运行。

免费 • 开源
查看详情
上一页
下一页

下载与相关链接

安全提示
⚠️

安全提醒

点击下方链接将跳转到第三方网站,请确保来源安全,建议优先从官方网站下载。