Gazelle Speech Language Model

Gazelle Speech Language Model

Gazelle Speech Language Model

软件

软件描述

Gazelle 是由 Tincans 开发的联合语音语言模型——更多详情和提示词建议,请参见我们的 v0.2 发布公告。这只是一个早期的研究预览,请合理预期其功能!Gazelle 可接受文本和音频作为输入(可互换使用),并生成文本作为输出。

官方网站

访问软件的官方网站了解更多信息

官方认证

demo.tincans.ai

安全链接HTTPS

什么是 Gazelle Speech Language Model?

Gazelle 是由 Tincans 开发的联合语音语言模型——更多详情和提示示例,请参见我们的 v0.2 发布公告。这只是一个早期的研究预览,请合理预期其功能!Gazelle 可以接收文本或音频作为输入(二者可互换),并生成文本作为输出。您还可以通过文本转语音(TTS)服务将文本输出合成音频(本示例中未实现)。一些典型的应用包括音频转录、回答问题或理解语音内容。该方法在需要低延迟和良好对话质量的商业场景中将表现更佳,例如客户服务、外呼销售等。

目前已知存在一些限制!该模型仅在英语音频上进行训练,不适用于其他语言。此外,该模型目前对口音的处理能力较弱。Gradio 演示可能在音频采样率方面存在 bug。我们目前仅接受单一音频输入(通过麦克风或上传)。

推理过程通过 Modal 提供的无服务器 GPU 实现。因此,首次使用时可能会遇到冷启动延迟(约 30 秒),但后续响应将更快。本演示并非为了优化推理速度,而是旨在展示 Gazelle 的能力。我们不会存储任何响应内容。

支持平台

下载与相关链接

安全提示
⚠️

安全提醒

点击下方链接将跳转到第三方网站,请确保来源安全,建议优先从官方网站下载。