Minigpt-4
💻
Minigpt-4
软件描述
利用先进大型语言模型提升视觉-语言理解能力。
官方网站
访问软件的官方网站了解更多信息
minigpt-4.github.io
安全链接HTTPS
什么是 Minigpt-4?
利用先进大语言模型提升视觉-语言理解能力。
我们目前正在准备一个可在单张3090显卡上运行的轻量级模型,您可将其部署到自己的设备上。请关注我们的GitHub页面以获取最新动态。
MiniGPT-4通过一个简单的投影层,将BLIP-2的冻结视觉编码器与冻结的大语言模型Vicuna对齐。
我们分两个阶段训练MiniGPT-4。第一阶段是传统的预训练,使用大约500万组对齐的图像-文本对,在10小时内通过4块A100显卡完成。第一阶段完成后,Vicuna能够理解图像内容,但其生成能力受到严重影响。
为解决这一问题并提升可用性,我们提出了一种新颖的方法,由模型自身与ChatGPT共同生成高质量的图像-文本对。基于此,我们构建了一个规模较小(总共3500组)但质量较高的数据集。
第二阶段采用对话模板在该数据集上进行微调,显著提升了其生成的可靠性与整体可用性。令人惊讶的是,这一阶段计算开销极低,仅需单块A100显卡约7分钟即可完成。
MiniGPT-4展现出许多类似于GPT-4的新兴视觉-语言能力。