Voxtral

软件描述

Voxtral 模型是前沿的语音理解模型,提供两种尺寸版本:一种是 240 亿参数版本,适用于大规模生产场景;另一种是 30 亿参数版本,适用于本地和边缘设备部署。两种版本均采用 Apache 2.0 开源许可证发布。

官方网站

访问软件的官方网站了解更多信息

官方认证

docs.mistral.ai

安全链接HTTPS

什么是 Voxtral?

Voxtral 模型是前沿的语音理解模型,提供两种规格:一种是 240 亿参数版本,适用于大规模生产场景;另一种是 30 亿参数版本,适用于本地及边缘设备部署。两款模型均采用 Apache 2.0 开源许可协议发布。我们已将这两个模型上线至 API 服务,并提供高度优化的仅转录端点,实现无与伦比的成本效益。

Voxtral Small 是 Mistral Small 3 的增强版本,在保留顶尖文本性能的同时,集成了最先进的音频输入能力,尤其擅长语音转录、翻译和音频理解。

Voxtral Mini 是 Ministral 3B 的增强版本,在保留顶尖文本性能的同时,集成了最先进的音频输入能力,尤其擅长语音转录、翻译和音频理解。

🔄 替代方案

64 个选择

Txtplay 提供云端和本地化解决方案,支持按需和实时转录、实时字幕生成以及自动翻译。

付费 • 专有
查看详情
Whisper Mate

Whisper Mate

软件

5

使用 OpenAI 的 Whisper AI 模型批量将音频文件或视频文件转录为文本。提供嵌入式字幕编辑器,可逐段预览转录结果。所有转录操作均在本地设备上完成,保障您的隐私安全。

免费增值 • 专有
查看详情
AI Audio Kit

AI Audio Kit

音频转写工具

一个简单直接的 macOS 应用程序,允许用户从 macOS 桌面使用不同的 Whisper 服务(OpenAI API、Runpod Faster Whisper)。您可以使用自己的 API 密钥,确保仅对实际使用的服务产生费用。

付费 • 专有
查看详情
💻

Nerd Dictation

软件

使用 VOSK-API 的简单、可定制的离线语音转文本功能。

免费 • 开源
查看详情
Buzz Captions

Buzz Captions

音频转写工具

5

Buzz Captions 是一款基于 OpenAI Whisper 模型的离线音频转录与翻译工具,用户可以导入音频和视频文件,生成 CSV、SRT、TXT 和 VTT 格式的字幕文本。

付费 • 开源
查看详情

流畅完美的语音输入。

免费 • 专有
查看详情

使用世界级的语音识别和领域专用语言模型(DSLMs)来赋能您的应用。准确无误,速度快,可满足企业级扩展需求,价格极具竞争力。开发者所需的一切,助您安心构建,更快上线。

免费增值 • 专有
查看详情

Dia 是由 Nari Labs 开发的具有 16 亿参数的文本转语音模型,通过 PytorchModelHubMixin 集成上传至 Hub。

免费 • 开源
查看详情
上一页下一页

下载与相关链接

安全提示
⚠️

安全提醒

点击下方链接将跳转到第三方网站,请确保来源安全,建议优先从官方网站下载。