发现各种软件替代方案,找到更适合您的选择
Voxtral 模型是先进的语音理解模型,提供两种尺寸——适用于生产规模应用的 24B 版本和适用于本地及边缘部署的 3B 版本。两个版本均采用 Apache 2.0 许可证发布。
提供 69 个替代方案
介绍首个基于扩散和流匹配的生成地理定位方法!我们通过条件性地对图像去噪随机位置,学习视觉内容与位置之间的关系。
VibeVoice 是一种新型框架,可从文本生成富有表现力的长篇多说话人对话音频,例如播客。它解决了传统文本转语音(TTS)系统中的诸多挑战,特别是在可扩展性、说话人一致性等方面……
MiniMax-M1 是世界上首个开源的大规模混合注意力推理模型。在复杂、注重生产力的场景中,M1 的能力在开源模型中处于顶尖水平,超越了国内闭源模型,接近国际领先水平……



