Apple Ferret

Apple Ferret
软件描述
一种端到端的多模态大模型,可接受任何形式的指代并作出相应的事物定位。
官方网站
访问软件的官方网站了解更多信息
官方认证
github.com
安全链接HTTPS
什么是 Apple Ferret?
一种端到端的多模态大语言模型,可接受任意形式的指代,并在响应中实现任何内容的定位。
主要贡献:
Ferret 模型——结合混合区域表示与空间感知视觉采样器,实现多模态大语言模型中的细粒度、开放词汇指代与定位。 GRIT 数据集(约 110 万条)——大规模、分层、鲁棒的“指代-定位”指令微调数据集。 Ferret-Bench —— 多模态评估基准,综合要求具备指代/定位、语义、知识和推理能力。
使用与许可声明:本数据及代码仅限研究用途,且须遵守 LLaMA、Vicuna 和 GPT-4 的许可协议。数据集采用 CC BY NC 4.0 许可(仅允许非商业使用),使用该数据集训练的模型不得用于研究以外的目的。

