Gazelle Speech Language Model

Gazelle Speech Language Model

Gazelle Speech Language Model

软件

软件描述

Gazelle 是由 Tincans 推出的联合语音语言模型——更多细节和提示创意,请参见我们的 v0.2 版本公告。这是早期研究预览版,请降低预期!Gazelle 可接受文本和音频作为输入(可互换),并生成文本作为输出。

官方网站

访问软件的官方网站了解更多信息

官方认证

demo.tincans.ai

安全链接HTTPS
立即访问

什么是 Gazelle Speech Language Model?

Gazelle 是 Tincans 推出的联合语音语言模型——更多详情和提示创意,请参见我们的 v0.2 版本公告。此为早期研究预览版,请降低预期!Gazelle 可接受文本或音频作为输入(可互换),并生成文本输出。您可进一步通过 TTS 服务将文本输出合成音频(此处未实现)。示例任务包括音频转录、回答问题或理解语音内容。该方法在对延迟和对话质量要求较高的业务场景中表现更优,例如客户支持、外呼销售等。

存在已知局限!该模型仅使用英文音频进行训练,无法良好处理其他语言。同样,目前对口音的处理能力有限。Gradio 演示可能在音频采样率方面存在缺陷。此外,我们仅支持单个音频输入(麦克风或上传)。

推理通过 Modal 平台的无服务器 GPU 完成。因此首次使用时可能会遇到约 30 秒的冷启动延迟,但后续响应会更快。此演示刻意未优化推理速度,旨在展示 Gazelle 的能力。我们不会存储任何回复。

支持平台

下载与相关链接

安全提醒

点击下方链接将跳转到第三方网站,请确保来源安全,建议优先从官方网站下载。

GitHub