国内比较有名的大模型有:
在聊天状态下能生成 Markdown 格式的有智谱清言、商量 Sensechat;目前不能进行自然语言交流的有昇思;受限制使用的有 MiniMax(无法对生成的文本进行复制输出,且只有 15 元的预充值额度进行体验,完成企业认证后可以进行充值)。特色功能方面,昇思能生图,MiniMax 能语音合成。
另外,根据相关测评报告,综合能力表现较好的国内大模型还有阿里云的通义千问 2.0 和 Qwen 72B-Chat、OPPO 的 AndesGPT、清华&智谱 AI 的智谱清言、字节跳动的云雀大模型等。在 SuperCLUE 测评中,国外模型的平均成绩为 69.42 分,国内模型平均成绩为 65.95 分,差距在 4 分左右,且国内外的平均水平差距在缩小。国内开源模型在中文上表现要好于国外开源模型,如百川智能的 Baichuan2-13B-Chat,阿里云的 Qwen-72B、Yi -34B-Cha t 均优于 Llama2-13B-Chat。
5⃣️五家北京企业机构:百度(文心一言)https://wenxin.baidu.com抖音(云雀大模型)https://www.doubao.com智谱AI(GLM大模型)https://chatglm.cn中科院(紫东太初大模型)https://xihe.mindspore.cn百川智能(百川大模型)https://www.baichuan-ai.com/3⃣️三家上海企业机构:商汤(日日新大模型)https://www.sensetime.com/MiniMax(ABAB大模型)https://api.minimax.chat上海人工智能实验室(书生通用大模型)https://intern-ai.org.cn今天这8个大模型,在聊天状态下——能生成Markdown格式的:智谱清言、商量Sensechat、MiniMax目前不能进行自然语言交流的:昇思(可以对文本进行是否由AI生成的检测,类似论文查重,准确度不错)、书生受限制使用:MiniMax(无法对生成的文本进行复制输出,且只有15元的预充值额度进行体验,完成企业认证后可以进行充值)特色功能:昇思——生图,MiniMax——语音合成
[title]VIRTUAL中文大模型基准测评2023年度报告[heading2]国内外大模型发展趋势75 71.7869.91说明:趋势展示,选取了7月-12月SuperCLUE-OPEN测评分数。国内代表性模型,选取了文心一言、通义千问、ChatGLM。原因是综合考虑了过去半年SuperCLUE测评结果、长期稳定迭代及对国内大模型生态的贡献;GPT4成绩,由GPT4API(7-9月)与GPT4-Turbo(10-12月)组成,用以表现国外最好模型发展。第2部分测评体系、方法说明[heading3]1.SuperCLUE介绍2.测评层级3.测评体系4.测评方法及示例
外大模型。其中国内最好模型文心一言[heading4]4.0(API)总分79.02分,距离GPT4-Turbo有[content]11.61分,距离GPT4(网页)有4.9分的差距。必须看到的是,过去1年国内大模型已经有了长足的进步。综合能力超过G P T 3.5和Gemini-Pro的模型有11个,比如百度的文心一言4.0、阿里云的通义千问2.0和Qw e n 72B-Chat、OPPO的AndesGPT、清华&智谱AI的智谱清言、字节跳动的云雀大模型等都有比较好的表现。•在SuperCLUE测评中,国外模型的平均成绩为69.42分,国内模型平均成绩为65.95分,差距在4分左右。另外国内开源模型在中文上表现要好于国外开源模型,如百川智能的Baichuan2-13B-Chat、•可以看出,国内外的平均水平差距在缩小,11月差距在10分左右。阿里云的Qwen-72B、Yi -34B-Cha t均优于Llama2-13B-Chat。