Apple Ferret

Apple Ferret
软件描述
一种端到端的多模态大语言模型,能够接受任何形式的指代,并对任何内容进行定位和响应。
官方网站
访问软件的官方网站了解更多信息
github.com
安全链接HTTPS
什么是 Apple Ferret?
一个端到端的多模态大语言模型,能够接受任何形式的指代,并对任意内容进行定位和关联。
主要贡献:
Ferret 模型——通过混合区域表示与空间感知视觉采样器,实现多模态大语言模型中细粒度且开放词汇的指代与定位。
GRIT 数据集(约110万条)——一个大规模、分层、鲁棒的指代与定位指令微调数据集。
Ferret-Bench——一个多模态评估基准,同时要求指代与定位、语义理解、知识推理和推理能力。
使用与许可说明:数据和代码仅用于研究目的,且必须遵守 LLaMA、Vicuna 和 GPT-4 的许可协议。数据集采用 CC BY NC 4.0 许可(仅允许非商业用途),基于该数据集训练的模型不得用于研究以外的用途。