Chat with Wiki - 国产大模型

Answer

以下是关于国产大模型的相关信息：

Qwen 是国内唯一出现在 OpenAI 视野里、可以参与国际竞争的国产大模型。OpenAI 创始人奥特曼在 X 上转发了相关消息，Qwen 多次冲进 LMSys 榜单，其开源模型累计下载量突破 1600 万，国内外有海量开发者基于它开发模型和应用，海外开发者对其评价颇高。通义大模型用行动证明了开源开放的力量。
在中文大模型基准测评 2023 年度报告的专业与技能专项基准中，GPT-4 Turbo 领先幅度较大，国内中文心一言 4.0 表现不俗，在开源模型中，阿里云的 Qwen-72B-Chat 表现可圈可点，是国内开源模型中唯一超过 60 分的模型。总体来看，国内第一梯队大模型在专业与知识能力上与国外最好模型有较大距离，但差距正在不断缩小。
在语言与知识的测评中，GPT-4 Turbo 依然领先，国内大模型表现相对较好，有 14 个模型得分高于 GPT3.5，有 9 个模型得分高于 Gemini-Pro。OPPO 的 AndesGPT、阿里云的通义千问 2.0、月之暗面的 Moonshot 分列国内 1 - 3 位，较为接近 GPT4。在开源模型中，零一万物的 Yi-34B-Chat、阿里云的 Qwen-72B-Chat、百川智能的 Baichuan2-13B-Chat 取得不错成绩，均超过 50 分，分列国内模型的 1 - 3 名。总体来看，在中文语言与知识能力上，国内大模型已基本追赶上国外头部大模型，未来最可能率先形成超越。

Content generated by AI large model, please carefully verify (powered by aily)

References

[title]Qwen 2开源了模型性能超越目前所有开源模型和国内闭源模型[heading1]相关参考信息可以说，Qwen是国内唯一出现在OpenAI视野里，可以参与国际竞争的国产大模型。不久前，OpenAI创始人奥特曼在X上转发了一条OpenAI研究员公布的消息，GPT-4o在测试阶段登上了Chatbot Arena（LMSys Arena）榜首位置，这个榜单是OpenAI唯一认可证明其地位的榜单，而Qwen是其中唯一上榜的国内模型。早些时候，有人做了个LMSys榜单一年动态变化视频。过去一年内，国产大模型只有Qwen多次冲进这份榜单，最早出现的是通义千问14B开源视频Qwen-14B，后来是Qwen系列的72B、110B以及通义千问闭源模型Qwen-Max，得分一个比一次高，LMSys也曾官方发推认证通义千问开源模型的实力。在顶尖模型公司的竞争中，目前为止中国模型只有通义千问真正入局，能与头部厂商一较高下。开发者用脚投票的结果，显示了Qwen系列的受欢迎程度。目前为止，Qwen系列开源模型的累计下载量突破了1600万，国内外有海量开发者都基于Qwen开发了自己的模型和应用，尤其是企业级的模型和应用。Qwen的很多忠实拥趸是海外开发者，他们时常在社交平台发表“我们为什么没有这种模型”的溢美之词（配图详见附件）。可以说，通义大模型用行动证明了开源开放的力量。七、为什么大模型的生态建设如此重要？AI大模型是全球数字技术体系的竞争，这个体系包括芯片、云计算、闭源模型、开源模型、开源生态等等。中国信息化百人会执委、阿里云副总裁安筱鹏指出，全球AI大模型竞争的制高点是AI基础大模型，因为基础大模型决定了产业智能化的天花板，商业闭环的可能性，应用生态的繁荣以及产业竞争的格局。与此同时，开源生态在整个技术体系的竞争中也有着至关重要的作用。

2023年度中文大模型基准测评报告.pdf

[title]中文大模型基准测评2023年度报告[heading1]专项基准[heading1]SuperCLUE基准-专业与技能测评表现测评分析专业与技能，考察模型的能力包括：计算、逻辑与推理、代码。在专业技能与知识的测评中，GPT-4 Turbo领先幅度较大，总分97分是唯一过90分且接近满分的大模型。国内大模型中文心一言4.0表现不俗，取得79.62的高分。较GPT4的API版本仅低1.53分，是国内模型中唯一接近80分的大模型。仅随其后的是通义千问2.0、Moonshot等模型。其中有11个大模型有超过GPT3.5的表现。在开源模型中，阿里云的Qwen-72B-Chat表现可圈可点，是国内开源模型中唯一超过60分的模型。总体来看，在专业与知识能力上，国内第一梯队大模型与国外最好模型依然有较大距离，但可以看到的是差距正在不断缩小。

2023年度中文大模型基准测评报告.pdf

[title]中文大模型基准测评2023年度报告[heading1]专项基准[heading1]SuperCLUE基准-语言与知识测评表现测评分析语言与知识，考察模型的能力包括：1.生成与创作；2.语言理解与抽取；3.上下文对话；4.角色扮演；5.知识与百科。在语言与知识的测评中，GPT-4 Turbo依然领先，是唯一超过90分的大模型。国内大模型也表现相对较好，有14个模型的得分高于GPT3.5，有9个模型的得分高于Gemini-Pro。其中OPPO的AndesGPT、阿里云的通义千问2.0、月之暗面的Moonsho t分列国内1-3位，较为接近GPT4。在开源模型中，零一万物的Yi-34B-Chat、阿里云的Qwen-72B-Chat、百川智能的Baichuan2-13B-Chat取得了不错的成绩，均超过了50分，分列国内模型的1-3名。总体来看，在中文语言与知识能力上，国内大模型已基本追赶上国外头部大模型，在未来也最可能成为率先形成超越的维度之一。

国产 大模型

Answer

References

国产大模型