上个月GPT-4一经推出,就引起了广泛的关注。我那时特意写了篇文章,向大家详细阐述了它的主要特性,特别是它那卓越的多模态信息处理能力。但截至目前,它的图像识别功能仍未对外公开。就在大家焦急地等待这一功能的时候,一个叫做GPT-4的开源项目却悄悄地实现了这一功能,这真是一个意外的惊喜!
GPT – 4多模态亮点
在GPT-4的发布活动上,它的多模态能力格外引人关注。例如,当输入一张手套掉落的图片,它能准确描述手套将落在木板上,同时球会被弹起;若展示一张造型独特的充电器图片,询问其为何显得滑稽,它也能指出这是因为采用了VGA线进行充电;甚至只需画出一个网站的草图并拍照给它,它便能迅速生成相应的代码。这些强大的功能让人们对它即将正式开放的识图功能充满了期待。
GPT – 4识图未开放困境
时光不断流转,然而像GPT-4这样的图像识别技术却迟迟没有开放。我们只能满怀期待,心中回荡着发布会上那令人难忘的演示,却无奈地无法亲身体验这一功能。网络上讨论声此起彼伏,大家都急切地盼望着它开放的那一天到来。
-4项目简介
这个开源项目宛如夜晚中升起的曙光。它的开发者团队源自KAUST,由数位博士合力打造而成。项目不仅公开了源代码,还推出了网页演示版本,用户可以轻松进入进行体验,为急需使用识图功能的人们提供了一条便捷的通道。
-4项目训练方式
利用开源的大规模模型进行训练,该团队将图像编码器与开源的羊驼语言模型进行整合,同时将大部分参数锁定,仅对少数部分进行训练。训练过程分为两个步骤,首先进行的是常规的预训练,这一步骤使用了500万对图文资料,在四张A100显卡上运行了10个小时,此时模型已具备了一定的图像理解能力,但生成图像的能力还比较弱;接下来是调整优化阶段,这一阶段使用了小规模但质量上乘的数据集,仅需一张A100显卡,短短7分钟就能完成,效率相当高。
-4项目功能示例
4的功能十分全面,能够通过上传食物图片来查找菜谱,还能为商品图片编写描述,甚至能模仿GPT-4发布会上的展示,根据网页草图自动生成代码。它几乎具备了GPT-4展示过的所有功能,这无疑让人眼前一亮。
-4项目使用情况
目前,访问这个网页demo的用户众多,常常需要排队等待。不过,用户可以选择在本地进行部署,这个过程并不繁琐。只需下载项目所需的环境和预训练模型,再在本地启动demo即可。从这个项目中,我们可以预见大模型在视觉领域的应用前景非常宽广,未来在图像、音频、视频等领域的应用潜力巨大,令人充满期待。
大家对-4这个开源项目能否促进GPT-4的发展存在分歧。若您觉得这篇文章对您有所帮助,别忘了点赞并分享给更多人!