Gazelle Speech Language Model

软件描述

Gazelle 是由 Tincans 开发的联合语音语言模型——更多详情和提示词建议，请参见我们的 v0.2 发布公告。这只是一个早期的研究预览，请合理预期其功能！Gazelle 可接受文本和音频作为输入（可互换使用），并生成文本作为输出。

官方网站

访问软件的官方网站了解更多信息

官方认证

demo.tincans.ai

安全链接HTTPS

什么是 Gazelle Speech Language Model?

Gazelle 是由 Tincans 开发的联合语音语言模型——更多详情和提示示例，请参见我们的 v0.2 发布公告。这只是一个早期的研究预览，请合理预期其功能！Gazelle 可以接收文本或音频作为输入（二者可互换），并生成文本作为输出。您还可以通过文本转语音（TTS）服务将文本输出合成音频（本示例中未实现）。一些典型的应用包括音频转录、回答问题或理解语音内容。该方法在需要低延迟和良好对话质量的商业场景中将表现更佳，例如客户服务、外呼销售等。

目前已知存在一些限制！该模型仅在英语音频上进行训练，不适用于其他语言。此外，该模型目前对口音的处理能力较弱。Gradio 演示可能在音频采样率方面存在 bug。我们目前仅接受单一音频输入（通过麦克风或上传）。

推理过程通过 Modal 提供的无服务器 GPU 实现。因此，首次使用时可能会遇到冷启动延迟（约 30 秒），但后续响应将更快。本演示并非为了优化推理速度，而是旨在展示 Gazelle 的能力。我们不会存储任何响应内容。

主要功能

✓语音转文字 ✓演讲记录 ✓语音识别 ✓人工智能驱动的

雷思软件