Minigpt-4

软件描述

利用先进大型语言模型提升视觉-语言理解能力。

官方网站

访问软件的官方网站了解更多信息

官方认证

minigpt-4.github.io

安全链接HTTPS

什么是 Minigpt-4?

利用先进大语言模型提升视觉-语言理解能力。
我们目前正在准备一个可在单张3090显卡上运行的轻量级模型,您可将其部署到自己的设备上。请关注我们的GitHub页面以获取最新动态。

MiniGPT-4通过一个简单的投影层,将BLIP-2的冻结视觉编码器与冻结的大语言模型Vicuna对齐。
我们分两个阶段训练MiniGPT-4。第一阶段是传统的预训练,使用大约500万组对齐的图像-文本对,在10小时内通过4块A100显卡完成。第一阶段完成后,Vicuna能够理解图像内容,但其生成能力受到严重影响。
为解决这一问题并提升可用性,我们提出了一种新颖的方法,由模型自身与ChatGPT共同生成高质量的图像-文本对。基于此,我们构建了一个规模较小(总共3500组)但质量较高的数据集。
第二阶段采用对话模板在该数据集上进行微调,显著提升了其生成的可靠性与整体可用性。令人惊讶的是,这一阶段计算开销极低,仅需单块A100显卡约7分钟即可完成。
MiniGPT-4展现出许多类似于GPT-4的新兴视觉-语言能力。

下载与相关链接

安全提示
⚠️

安全提醒

点击下方链接将跳转到第三方网站,请确保来源安全,建议优先从官方网站下载。