外媒揭秘OpenAI的GPT-4大模型:参数、架构等具体信息

近日,外媒对今年 3 月发布的 GPT – 4 大模型进行揭秘,诸多关键信息曝光,这究竟会给人工智能领域带来怎样的震动?让我们一探究竟。

模型参数揭秘

图片[1]-外媒揭秘OpenAI的GPT-4大模型:参数、架构等具体信息-东山笔记

GPT – 4 在 120 层中包含了 1.8 万亿参数,而 GPT – 3 只有约 1750 亿个参数。如此巨大的参数差距,意味着 GPT – 4 拥有更强的处理能力和更复杂的逻辑运算能力。更多的参数能让它在语言理解、生成等方面表现得更为出色,为用户提供更精准、丰富的内容。

混合专家模型构建

为保持合理成本,OpenAI 采用混合专家模型构建 GPT – 4。混合专家模型会根据数据分离训练多个模型,最后整合输出为一个单独任务。GPT – 4 使用了 16 个混合专家模型,每个有 1110 亿个参数,每次前向传递路由经过两个专家模型。这种构建方式既保证了模型性能,又在一定程度上控制了成本。

训练数据集情况

GPT – 4 使用了包含 13 万亿 token 的数据集训练,且 token 不是唯一的,根据迭代次数计算为更多的 token。大量的数据集为模型提供了丰富的学习素材,让它能接触到各种各样的语言表达和知识,从而使生成的内容更加准确和全面。

图片[2]-外媒揭秘OpenAI的GPT-4大模型:参数、架构等具体信息-东山笔记

上下文长度差异

图片[3]-外媒揭秘OpenAI的GPT-4大模型:参数、架构等具体信息-东山笔记

GPT – 4 预训练阶段的上下文长度为 8k,32k 版本是对 8k 微调的结果。更长的上下文长度意味着模型能更好地理解和处理长文本,在对话、文本分析等场景中表现更优。但这也增加了训练和推理的难度。

高昂的训练成本

训练 GPT – 4 成本相当高,外媒表示 8x H100 无法以每秒 33.33 个 Token 的速度提供所需的密集参数模型,以 H100 物理机每小时 1 美元计算,一次训练成本高达 6300 万美元(约 4.51 亿元人民币)。如此高昂的成本是很多机构难以承受的。

成本控制策略

为降低成本,OpenAI 选择使用云端的 A100 GPU 训练模型,将最终训练成本降至 2150 万美元(约 1.54 亿元人民币)左右。虽然花费了稍微更长的时间,但大幅降低了训练成本,这一策略值得其他机构借鉴。

大家认为以这样的成本和参数打造出的 GPT – 4,未来在市场上会取得怎样的成绩呢?欢迎评论分享,觉得文章有用就点赞和分享吧!

© 版权声明
THE END
喜欢就支持一下吧
分享