Minigpt-4

软件描述

利用先进大型语言模型提升视觉-语言理解能力。

官方网站

访问软件的官方网站了解更多信息

官方认证

minigpt-4.github.io

安全链接HTTPS

什么是 Minigpt-4?

利用先进大语言模型提升视觉-语言理解能力。
我们目前正在准备一个可在单张3090显卡上运行的轻量级模型，您可将其部署到自己的设备上。请关注我们的GitHub页面以获取最新动态。

MiniGPT-4通过一个简单的投影层，将BLIP-2的冻结视觉编码器与冻结的大语言模型Vicuna对齐。
我们分两个阶段训练MiniGPT-4。第一阶段是传统的预训练，使用大约500万组对齐的图像-文本对，在10小时内通过4块A100显卡完成。第一阶段完成后，Vicuna能够理解图像内容，但其生成能力受到严重影响。
为解决这一问题并提升可用性，我们提出了一种新颖的方法，由模型自身与ChatGPT共同生成高质量的图像-文本对。基于此，我们构建了一个规模较小（总共3500组）但质量较高的数据集。
第二阶段采用对话模板在该数据集上进行微调，显著提升了其生成的可靠性与整体可用性。令人惊讶的是，这一阶段计算开销极低，仅需单块A100显卡约7分钟即可完成。
MiniGPT-4展现出许多类似于GPT-4的新兴视觉-语言能力。

主要功能

✓人工智能驱动的

雷思软件

Minigpt-4

软件描述

官方网站

什么是 Minigpt-4?

主要功能

支持平台

标签

下载与相关链接