GPT-4多模态能力强大却未开放识图，MiniGPT-4开源来袭？-东山笔记

上个月GPT-4一经推出，就引起了广泛的关注。我那时特意写了篇文章，向大家详细阐述了它的主要特性，特别是它那卓越的多模态信息处理能力。但截至目前，它的图像识别功能仍未对外公开。就在大家焦急地等待这一功能的时候，一个叫做GPT-4的开源项目却悄悄地实现了这一功能，这真是一个意外的惊喜！

GPT – 4多模态亮点

在GPT-4的发布活动上，它的多模态能力格外引人关注。例如，当输入一张手套掉落的图片，它能准确描述手套将落在木板上，同时球会被弹起；若展示一张造型独特的充电器图片，询问其为何显得滑稽，它也能指出这是因为采用了VGA线进行充电；甚至只需画出一个网站的草图并拍照给它，它便能迅速生成相应的代码。这些强大的功能让人们对它即将正式开放的识图功能充满了期待。

GPT – 4识图未开放困境

时光不断流转，然而像GPT-4这样的图像识别技术却迟迟没有开放。我们只能满怀期待，心中回荡着发布会上那令人难忘的演示，却无奈地无法亲身体验这一功能。网络上讨论声此起彼伏，大家都急切地盼望着它开放的那一天到来。

-4项目简介

这个开源项目宛如夜晚中升起的曙光。它的开发者团队源自KAUST，由数位博士合力打造而成。项目不仅公开了源代码，还推出了网页演示版本，用户可以轻松进入进行体验，为急需使用识图功能的人们提供了一条便捷的通道。

-4项目训练方式

利用开源的大规模模型进行训练，该团队将图像编码器与开源的羊驼语言模型进行整合，同时将大部分参数锁定，仅对少数部分进行训练。训练过程分为两个步骤，首先进行的是常规的预训练，这一步骤使用了500万对图文资料，在四张A100显卡上运行了10个小时，此时模型已具备了一定的图像理解能力，但生成图像的能力还比较弱；接下来是调整优化阶段，这一阶段使用了小规模但质量上乘的数据集，仅需一张A100显卡，短短7分钟就能完成，效率相当高。

-4项目功能示例

4的功能十分全面，能够通过上传食物图片来查找菜谱，还能为商品图片编写描述，甚至能模仿GPT-4发布会上的展示，根据网页草图自动生成代码。它几乎具备了GPT-4展示过的所有功能，这无疑让人眼前一亮。

-4项目使用情况

目前，访问这个网页demo的用户众多，常常需要排队等待。不过，用户可以选择在本地进行部署，这个过程并不繁琐。只需下载项目所需的环境和预训练模型，再在本地启动demo即可。从这个项目中，我们可以预见大模型在视觉领域的应用前景非常宽广，未来在图像、音频、视频等领域的应用潜力巨大，令人充满期待。

大家对-4这个开源项目能否促进GPT-4的发展存在分歧。若您觉得这篇文章对您有所帮助，别忘了点赞并分享给更多人！