Gazelle Speech Language Model

Gazelle Speech Language Model
软件
软件描述
Gazelle 是由 Tincans 推出的联合语音语言模型——更多细节和提示创意,请参见我们的 v0.2 版本公告。这是早期研究预览版,请降低预期!Gazelle 可接受文本和音频作为输入(可互换),并生成文本作为输出。
官方网站
访问软件的官方网站了解更多信息
官方认证
demo.tincans.ai
安全链接HTTPS
什么是 Gazelle Speech Language Model?
Gazelle 是 Tincans 推出的联合语音语言模型——更多详情和提示创意,请参见我们的 v0.2 版本公告。此为早期研究预览版,请降低预期!Gazelle 可接受文本或音频作为输入(可互换),并生成文本输出。您可进一步通过 TTS 服务将文本输出合成音频(此处未实现)。示例任务包括音频转录、回答问题或理解语音内容。该方法在对延迟和对话质量要求较高的业务场景中表现更优,例如客户支持、外呼销售等。
存在已知局限!该模型仅使用英文音频进行训练,无法良好处理其他语言。同样,目前对口音的处理能力有限。Gradio 演示可能在音频采样率方面存在缺陷。此外,我们仅支持单个音频输入(麦克风或上传)。
推理通过 Modal 平台的无服务器 GPU 完成。因此首次使用时可能会遇到约 30 秒的冷启动延迟,但后续响应会更快。此演示刻意未优化推理速度,旨在展示 Gazelle 的能力。我们不会存储任何回复。

