目前中国与国外的 AI 模型存在一定差距,但也有自身的优势和进步。
在一些方面,国外模型如 Llama 3.1 在推理、数学、多语言和长上下文任务中能够与 GPT4 相抗衡,首次缩小了开放模型与专有前沿的差距。谷歌 DeepMind 与纽约大学团队的 AlphaGeometry 在奥林匹克级几何问题基准测试中表现出色。GPT 4 Turbo 在 SuperCLUE 测评中的总分遥遥领先,国外模型的平均成绩也相对较高。
然而,中国的 AI 模型也在不断发展。由 DeepSeek、零一万物、知谱 AI 和阿里巴巴开发的模型在 LMSYS 排行榜上取得优异成绩,尤其在数学和编程方面表现突出。国内的最强模型能与美国生产的第二强前沿模型竞争,在某些子任务上挑战了 SOTA。国内模型更注重计算效率,以弥补 GPU 访问的限制,并学会更有效地利用资源。例如 DeepSeek 在推理过程中通过多头隐式注意力减少内存需求,并且改进了 MoE 架构。零一万物更加关注数据集的建设。
在专项基准如语言与知识方面,GPT4 Turbo 依然领先,但国内大模型也表现相对较好,有 14 个模型的得分高于 GPT3.5,有 9 个模型的得分高于 GeminiPro。在中文语言与知识能力上,国内大模型已基本追赶上国外头部大模型,未来有可能率先形成超越。
总体而言,国内外差距依然存在,但国内大模型在过去一年有了长足的进步,平均水平差距在缩小。
2024-11-01