Chatterbox TTS

Chatterbox TTS
软件描述
我们很高兴推出 Chatterbox,这是 Resemble AI 首个面向生产环境的开源文本转语音模型。Chatterbox 采用 MIT 许可证,经过与 ElevenLabs 等领先闭源系统对比测试,在逐项对比评估中始终更受青睐。
官方网站
访问软件的官方网站了解更多信息
resemble-ai.github.io
什么是 Chatterbox TTS?
我们很高兴推出 Chatterbox,这是 Resemble AI 首个面向生产环境的开源 TTS 模型。Chatterbox 采用 MIT 许可证,已与 ElevenLabs 等领先闭源系统进行基准测试,在对比评估中始终更受青睐。
无论你正在制作表情包、视频、游戏或 AI 代理,Chatterbox 都能让你的内容栩栩如生。它也是首个支持情感夸张控制的开源 TTS 模型,这一强大功能可让声音更具表现力。立即在我们的 Hugging Face Gradio 应用中体验。
如果你喜欢该模型但需要扩展性能或提升精度,欢迎了解我们性价比极高的 TTS 服务(链接)。其具备可靠的性能和低于 200ms 的超低延迟,非常适合应用于代理、应用程序或互动媒体等生产场景。
关键特性
- 行业领先零样本 TTS
- 0.5B 参数 Llama 骨干网络
- 独特的情感夸张/强度控制
- 推理过程对齐感知,高度稳定
- 基于 50 万小时清洗数据训练
- 输出带水印
- 内置简易语音转换脚本
- 性能超越 ElevenLabs
使用建议
通用场景(TTS 和语音代理):
默认设置(exaggeration=0.5, cfg_weight=0.5)适用于大多数提示。
若参考说话人语速较快,可将 cfg_weight 降低至约 0.3 以改善节奏。
富有表现力或戏剧性表达:
尝试降低 cfg_weight(例如 ~0.3),并将 exaggeration 提高至 0.7 或更高。
更高的夸张值通常会加快语速;降低 cfg_weight 可通过更慢、更从容的节奏进行补偿。
🔄 替代方案
44 个选择
QuickEditVideo
一款注重隐私的在线视频编辑器,使用 FFmpeg 和 WebAssembly 在您的浏览器中完全本地处理视频。无需上传,无需注册。
Audeus 是一款文本转语音应用,可使用自然逼真的语音朗读您的文档。通过同步的文字高亮功能,即时将阅读速度提升一倍或三倍,提高专注力并增强理解力。立即开始使用。
Speechimo 正在革新内容创作者、教育工作者和营销人员将文本转化为吸引人音频的方式。凭借业界领先的速度和用户友好的界面,Speechimo 提供多种语言的高质量、富有情感的配音。

Verbify-TTS
免费且离线的文本转语音(TTS)引擎,利用AI模型提供高质量语音,朗读您屏幕上任意文本。

All Voice Lab
一个由人工智能驱动的平台,以尖端技术革新语音创作。我们为全球创作者和企业提供先进的音频解决方案。
VoiceGenie 可将任意文本转换为清晰自然、如真人发声的音频,适用于视频、播客、在线学习、有声书或无障碍访问。依托谷歌云最新高端神经语音技术,只需轻点一下,即可呈现真实语音的温暖与细腻。

Enginn Studio
Enginn 创建了不属于任何人的高质量人声,并提供 SaaS 平台 Enginn Studio,用于内容制作。





