GPT-4多模态能力强大却未开放识图,MiniGPT-4开源来袭?

上个月GPT-4一经推出,就引起了广泛的关注。我那时特意写了篇文章,向大家详细阐述了它的主要特性,特别是它那卓越的多模态信息处理能力。但截至目前,它的图像识别功能仍未对外公开。就在大家焦急地等待这一功能的时候,一个叫做GPT-4的开源项目却悄悄地实现了这一功能,这真是一个意外的惊喜!

图片[1]-GPT-4多模态能力强大却未开放识图,MiniGPT-4开源来袭?-东山笔记

GPT – 4多模态亮点

在GPT-4的发布活动上,它的多模态能力格外引人关注。例如,当输入一张手套掉落的图片,它能准确描述手套将落在木板上,同时球会被弹起;若展示一张造型独特的充电器图片,询问其为何显得滑稽,它也能指出这是因为采用了VGA线进行充电;甚至只需画出一个网站的草图并拍照给它,它便能迅速生成相应的代码。这些强大的功能让人们对它即将正式开放的识图功能充满了期待。

图片[2]-GPT-4多模态能力强大却未开放识图,MiniGPT-4开源来袭?-东山笔记

GPT – 4识图未开放困境

图片[3]-GPT-4多模态能力强大却未开放识图,MiniGPT-4开源来袭?-东山笔记

图片[4]-GPT-4多模态能力强大却未开放识图,MiniGPT-4开源来袭?-东山笔记

时光不断流转,然而像GPT-4这样的图像识别技术却迟迟没有开放。我们只能满怀期待,心中回荡着发布会上那令人难忘的演示,却无奈地无法亲身体验这一功能。网络上讨论声此起彼伏,大家都急切地盼望着它开放的那一天到来。

-4项目简介

图片[5]-GPT-4多模态能力强大却未开放识图,MiniGPT-4开源来袭?-东山笔记

这个开源项目宛如夜晚中升起的曙光。它的开发者团队源自KAUST,由数位博士合力打造而成。项目不仅公开了源代码,还推出了网页演示版本,用户可以轻松进入进行体验,为急需使用识图功能的人们提供了一条便捷的通道。

图片[6]-GPT-4多模态能力强大却未开放识图,MiniGPT-4开源来袭?-东山笔记

-4项目训练方式

图片[7]-GPT-4多模态能力强大却未开放识图,MiniGPT-4开源来袭?-东山笔记

利用开源的大规模模型进行训练,该团队将图像编码器与开源的羊驼语言模型进行整合,同时将大部分参数锁定,仅对少数部分进行训练。训练过程分为两个步骤,首先进行的是常规的预训练,这一步骤使用了500万对图文资料,在四张A100显卡上运行了10个小时,此时模型已具备了一定的图像理解能力,但生成图像的能力还比较弱;接下来是调整优化阶段,这一阶段使用了小规模但质量上乘的数据集,仅需一张A100显卡,短短7分钟就能完成,效率相当高。

图片[8]-GPT-4多模态能力强大却未开放识图,MiniGPT-4开源来袭?-东山笔记

-4项目功能示例

4的功能十分全面,能够通过上传食物图片来查找菜谱,还能为商品图片编写描述,甚至能模仿GPT-4发布会上的展示,根据网页草图自动生成代码。它几乎具备了GPT-4展示过的所有功能,这无疑让人眼前一亮。

-4项目使用情况

图片[9]-GPT-4多模态能力强大却未开放识图,MiniGPT-4开源来袭?-东山笔记

目前,访问这个网页demo的用户众多,常常需要排队等待。不过,用户可以选择在本地进行部署,这个过程并不繁琐。只需下载项目所需的环境和预训练模型,再在本地启动demo即可。从这个项目中,我们可以预见大模型在视觉领域的应用前景非常宽广,未来在图像、音频、视频等领域的应用潜力巨大,令人充满期待。

大家对-4这个开源项目能否促进GPT-4的发展存在分歧。若您觉得这篇文章对您有所帮助,别忘了点赞并分享给更多人!

图片[10]-GPT-4多模态能力强大却未开放识图,MiniGPT-4开源来袭?-东山笔记

© 版权声明
THE END
喜欢就支持一下吧
分享