Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

模型排行榜

Answer

以下是关于模型排行榜的相关信息:

  • 斯坦福发布了大模型排行榜 AlpacaEval:
    • 这是一种基于 LLM 的全自动评估基准,更加快速、廉价和可靠。
    • 项目链接:https://github.com/tatsu-lab/alpaca_eval ,排行榜链接:https://tatsu-lab.github.io/alpaca_eval/ 。
    • 选择了开源和闭源模型,还开设了“准中文”排行榜。
    • 分为以 GPT-4 和 Claude 为元标注器的两个子榜单。
    • 在 GPT-4 评估榜单中,GPT-4 稳居第一,Claude 和 ChatGPT 分别排名第二和第三,开源模型中的 WizardLM 排名第四,Vicuna 排名第六,Falcon Instruct 40B 位居 12 名。
    • 相比其他 LLM 自动评测器,如 alpaca_farm_greedy_gpt4、aviary_gpt4、lmsys_gpt4 还有人类评估,斯坦福的 AlpacaEval 评测器采用的 GPT-4 评测方式取得了最高的人类一致性,以及较低的误差,并仅需约 1/22 的人类标注成本。
    • 支持两种模式的模型评估方式。
  • Andrej Karpathy 提到了另一个排行榜——聊天机器人竞技场,由伯克利的团队管理,根据 ELO 评级对不同语言模型进行排名,计算方式与国际象棋中的类似,顶部是专有模型,下方是开放权重的模型。
Content generated by AI large model, please carefully verify (powered by aily)

References

斯坦福发布大模型排行榜AlpacaEval

来自斯坦福的团队,发布了一款LLM自动评测系统——AlpacaEval,以及对应的AlpacaEval Leaderboard。这个全新的大语言模型排行榜AlpacaEval,它是一种基于LLM的全自动评估基准,且更加快速、廉价和可靠。项目链接:https://github.com/tatsu-lab/alpaca_eval排行榜链接:https://tatsu-lab.github.io/alpaca_eval/该研究团队选择了目前在开源社区很火的开源模型,还有GPT-4、PaLM 2等众多「闭源」模型,甚至还开设了一个「准中文」排行榜。AlpacaEval分为以GPT-4和Claude为元标注器的两个子榜单。在斯坦福的这个GPT-4评估榜单中:GPT-4稳居第一,胜率超过了95%;胜率都在80%以上的Claude和ChatGPT分别排名第二和第三,其中Claude以不到3%的优势超越ChatGPT。值得关注的是,获得第四名的是一位排位赛新人——微软华人团队发布的WizardLM。在所有开源模型中,WizardLM以仅130亿的参数版本排名第一,击败了650亿参数量的Guanaco。而在开源模型中的佼佼者Vicuna发挥依然稳定,凭借着超过70%的胜率排在第六,胜率紧追Guanaco 65B。最近大火的Falcon Instruct 40B表现不佳,仅位居12名,略高于Alpaca Farm 7B。PART 01AlpacaEval技术细节01AlpacaEval评估效果

斯坦福发布大模型排行榜AlpacaEval

那么相比其他的LLM自动评测器,如alpaca_farm_greedy_gpt4、aviary_gpt4、lmsys_gpt4,还有人类(humans)评估,斯坦福的AlpacaEval评测器有什么特别?在AlpacaEval set上,斯坦福AlpacaEval团队通过与2.5K条人工标注结果(每个指令平均包含4个人工标注)对比,研究人员评估了不同的自动标注器的性能。对比结果显示,AlpacaEval采用的GPT-4评测方式取得了最高的人类一致性,以及较低的误差,并仅需约1/22的人类标注成本。图注:人类一致性:标注者与交叉标注集中人类多数票之间的一致性。价格:每1000个标注的平均价格。时间:计算1000个标注所需的平均时间。相对于人工标注,全自动化的AlpacaEval仅需花费约1/22的经济成本和1/25的时间成本。另外,还有一个关键问题:什么评估数据可以最好地区分模型。团队从统计角度出发,在AlpacaEval的所有子集上检验这个问题。下图显示了AlpacaEval每个子集的80个实例上每对模型的配对t检验的p值。例如,我们看到Self-Instruct数据集产生的统计能力最小,这表明可以从评估集中删除该数据集。图注:不同基准评估数据集的质量02如何使用AlpacaEval评估模型AlpacaEval支持两种模式的模型评估方式:

文章:Andrej Karpathy 亲授:大语言模型入门

好的,最后,我想向你展示当前领先的大型语言模型的排行榜。例如,这就是聊天机器人竞技场。它由伯克利的一个团队管理。他们在这里所做的是根据ELO评级对不同的语言模型进行排名。计算ELO的方式与国际象棋中的计算方式非常相似。所以不同的棋手互相对弈。根据彼此的胜率,你可以计算他们的ELO分数。你可以使用语言模型做完全相同的事情。所以你可以访问这个网站,输入一些问题,你会得到两个模型的响应,你不知道它们是由什么模型生成的,然后你选择获胜者。然后根据谁赢谁输,你就可以计算出ELO分数。所以越高越好。所以你在这里看到的是,拥挤在顶部的是专有模型。这些是封闭模型,你无法访问权重,它们通常位于网络界面后面。这是OpenAI的GPT系列,以及Anthropic的Claude系列。还有其他公司的一些其他系列。所以这些是目前表现最好的模型。然后就在其下方,你将开始看到一些开放权重的模型。因此,这些权重是可用的,人们对它们有更多了解,通常有相关论文可用。例如,Meta的Llama2系列就是这种情况。或者在底部,你可以看到Zephyr 7b Beta,它基于法国另一家初创公司的Mistral系列。

Others are asking
最新的AI排行榜
以下是最新的 AI 排行榜相关信息: 3 月 9 日榜单: 文生图:Ideogram 2a(官方评价这是 Ideogram 迄今为止最快、最实惠的文生图模型) 文生视频:SkyReels、海螺01director、Pixverse4.0 图生视频:SkyReels、Pixverse4.0、Adobe Firefly 测评涵盖了 Midjourney,Flux,即梦,Recraft,ideogram,SD3.5,Sora,可灵,通义,即梦,海螺,pixverse,pika,vidu,luma 等 50+国内外热门模型,还有 Veo 2.0 等最新模型上线。本周最出乎意料的是最新上的模型 SkyReels,在文生视频和图生视频榜单都排名靠前。 生成式 AI 季度数据报告 2024 月 1 3 月: 赛道方面:天花板潜力为数亿美金;对标公司有 Xmind 等;总体趋势平稳增长,15.93%;月平均增速 34 万 PV/月;原生产品占比中等。 竞争方面:Top1 占比 32%;Top3 占比 82%;马太效应弱;网络效应中;大厂是否入局是,但大厂占比较低;技术门槛中。 23 年 12 月至 24 年 3 月月访问量排行榜及变化情况: 非大厂的 Top1 公司及产品:Whimsical Al,估值融资 3000 万$(2021),最新月 PV 为 237 万。2023 年 4 月,月访问量 382 万,Whimsical AI、gitmind AI 分别位列第一、第二的位置,月访问量合计占比 84%。2024 年 3 月,月访问量 812 万,Whimsical AI 整年看处于增长态势,仍位列第一,月访问量达到 237 万;ProcessOn 凭借其原有客户积累,月访问量快速增长,位列第二名,占比 25%。 记忆辅助榜单中,2023 年 4 月,月访问量为 83 万,Rewind AI 以 43 万的访问量位居第一,占赛道月总访问量的 52%。Personal.ai 和 Heyday 分别以 25 万和 8 万的访问量位列二、三,分别占赛道月总访问量的 30%和 10%。2024 年 3 月,月访问量增长至 245 万,rabbit inc.以 128 万的访问量跃居第一,占赛道月总访问量的 52%。Humane 和 Rewind AI 分别以 46 万和 22 万的访问量位列二、三,分别占赛道月总访问量的 19%和 9%。 相关网址: https://www.xiaohongshu.com/user/profile/65890e73000000003d035101?xsec_token=AB67OV1KW_ANCcrYRU_oRTJKJ9xLtexbMgyoJq68rxQA%3D&xsec_source=pc_search aiwatch.ai
2025-04-15
大语言模型能力排行榜
以下是一些大语言模型能力排行榜的相关信息: Open LLM Leaderboard: 地址: 简介:由HuggingFace组织的一个LLM评测榜单,目前已评估了较多主流的开源LLM模型。评估主要包括AI2 Reasoning Challenge、HellaSwag、MMLU、TruthfulQA四个数据集上的表现,主要以英文为主。 chinesellmbenchmark: 地址: 简介:中文大模型能力评测榜单,覆盖百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle/chatglm6b等开源大模型,多维度能力评测。不仅提供能力评分排行榜,也提供所有模型的原始输出结果。 聊天机器人竞技场:由伯克利的一个团队管理,根据ELO评级对不同的语言模型进行排名,计算ELO的方式与国际象棋中的计算方式非常相似。 智源评测:豆包模型在其中表现出色,荣获大语言模型第一,视觉理解第二、文生图第二、文生视频第二,在匿名投票竞技场中排名第二,仅次于OpenAI。 地址:
2025-03-31
文生图模型打分的排行榜
以下是文生图模型的打分排行榜(从高到低): 文生图模型: Imagen 3:真实感满分,指令遵从强。 Recraft:真实感强,风格泛化很好,指令遵从较好(会受风格影响)。 Midjourney:风格化强,艺术感在线,但会失真,指令遵从较差。 快手可图:影视场景能用,风格化较差。 Flux.1.1:真实感强,需要搭配 Lora 使用。 文生图大模型 V2.1L(美感版):影视感强,但会有点油腻,细节不够,容易糊脸。 Luma:影视感强,但风格单一,糊。 美图奇想 5.0:AI 油腻感重。 腾讯混元:AI 油腻感重,影视感弱,空间结构不准。 SD 3.5 Large:崩。 文生视频模型: 海螺:语意遵循不错,模型解析有待提高,自带电影滤镜,但有些用力过猛,得益于海量的影视数据。 可灵 1.5:颜色失真,缺少质感,偏科严重,物理规律和提示词遵循较强。 智谱:语意遵循,质感较差,画质一言难尽。 mochi:动态丰富,想象力丰富,美学质感较好。 pd 2.0 pro:PPT 效果,训练数据较少,但是联想启发性很好。 runway:空间感强,语意遵循较差,流体效果一绝。 Seaweed 2.0 pro:质感略弱于可灵 1.5,整体感觉师出同门。 sora:运镜丰富,物理逻辑混乱。 Pixverse v3:动态稳,丝滑,整体美学强于可灵 1.5。 luma 1.6:语意遵循差,提示词随便,动起来算我输。
2025-03-07
AI编程大模型排行榜
以下是一些关于 AI 编程大模型的相关信息: 1. ShowMeAI 周刊 No.13 中提到的相关内容: Learn About:继 NotebookLM 之后又一个 AI Native 产品,谷歌真正的 AI Native Education 尝试。 ima.copilot V.S. 秘塔 V.S. 天工:国区 Perplexity 青出于蓝而胜于蓝,秘塔一骑绝尘。 Markdown:技术圈(最)常用的文本编辑语言,一种「四通八达」的中转格式,并附上好用的转换工具。 把 17 岁高中生涂津豪的 Thinking Claude 提示词,设置在 Cursor 里。 两篇优秀的 AI 编程教程:跟着资深工程师&全栈开发者,挖掘 LLM 编程能力的极限。 恭喜阶跃星辰!step2 在 LiveBench 榜单杀进前 5,斩获国产大模型第 1 名,并顺带聊聊榜单和测评的「内幕」。 举个栗子:当把大模型「开源」用「做饭吃饭」来解释,一起都豁然开朗起来,甚至还玩起了谐音梗。 很有共鸣:为什么大部分人用不起来 AI?可能还没体验到效率飞升的 Aha Moment。 集体讨论:大家都是怎么快速处理长视频、长音频、长文本材料的?都有哪些工作流和工具的配合应用? 2. Trae:字节开发的一款和 AI 深度集成的 AI 编程工具,可让用户限时免费无限量使用地球上最强大的编程大模型 Claude Sonnet,全自动化进行 AI 编程。包含完整的 IDE 功能,如代码编写、项目管理、插件管理、源代码管理等,提供智能问答、实时代码建议、代码片段生成、从 0 到 1 开发项目。 3. 8 月正式上线的国内大模型: 北京的五家企业机构:百度(文心一言)https://wenxin.baidu.com ;抖音(云雀大模型)https://www.doubao.com ;智谱 AI(GLM 大模型)https://chatglm.cn ;中科院(紫东太初大模型)https://xihe.mindspore.cn ;百川智能(百川大模型)https://www.baichuanai.com/ 。 上海的三家企业机构:商汤(日日新大模型)https://www.sensetime.com/ ;MiniMax(ABAB 大模型)https://api.minimax.chat ;上海人工智能实验室(书生通用大模型)https://internai.org.cn 。 能生成 Markdown 格式的:智谱清言、商量 Sensechat、MiniMax 。 目前不能进行自然语言交流的:昇思(可以对文本进行是否由 AI 生成的检测,类似论文查重,准确度不错)、书生 。 受限制使用:MiniMax(无法对生成的文本进行复制输出,且只有 15 元的预充值额度进行体验,完成企业认证后可以进行充值) 。 特色功能:昇思——生图,MiniMax——语音合成 。 阿里通义千问、360 智脑、讯飞星火等均不在首批获批名单中。广东地区获批公司分别为华为、腾讯,科大讯飞系其他地区获批产品。
2025-02-24
2024 AI工具排行榜
以下是 2024 年部分 AI 工具的相关信息: 开发者工具: 23 年 12 月至 24 年 3 月的访问量排行榜中,非大厂的 Top1 公司是 Langchain,其 3 月 PV 为 356 万,单 PV 价值为 56.18 美元。 赛道方面,天花板潜力 TAM 为 120 亿美元,总体趋势平稳增长,月平均增速为 82 万 PV/月,原生产品占比高。 竞争方面,Top1 占 19%,Top3 占 54%,马太效应弱,网络效应强,大厂已入局,技术门槛中。 教育工具: 23 年 12 月至 24 年 3 月的访问量排行榜中,非大厂的 Top1 公司是 Quizlet,其 3 月 PV 为 1.3 亿。 赛道方面,天花板潜力 TAM 约为 30 亿,总体趋势快速增长,月平均增速为 1793 万 PV/月,原生产品占比低。 竞争方面,Top1 占 45%,Top3 占 76%,马太效应弱,网络效应弱,大厂未入局,技术门槛中。 此外,在展望 2025 时,AI 行业的创新机会方面,2024 年 9 月 OpenAI 发布了新一代语言模型 o1,业界推测其采用了全新的训练与推理方案,结合强化学习技术,显著增强了推理能力,可能借鉴了下围棋的 AlphaGo Zero 的技术思路。
2025-01-26
文生图模型打分的排行榜
以下是关于文生图模型打分的排行榜相关信息: SuperCLUEImage 测评基准首次公布,DALLE 3 以 76.94 分高居榜首,显示其在图像生成质量、多样性和文本一致性方面的卓越表现。百度文心一格和 vivo 的 BlueLMArt 位列国内前列,但与国际领先模型仍有差距。 在包含人工评估、机器评估的全面评测中,Kolors 具有非常有竞争力的表现,达到业界领先水平。构建了包含 14 种垂类、12 个挑战项、总数量为一千多个 prompt 的文生图评估集 KolorsPrompts。 人工评测方面,邀请了 50 个具有图像领域知识的专业评估人员对不同模型的生成结果进行对比评估,衡量维度为画面质量、图文相关性、整体满意度三个方面。Kolors 在整体满意度方面处于最优水平,其中画面质量显著领先其他模型。具体平均分如下: AdobeFirefly:整体满意度平均分 3.03,画面质量平均分 3.46,图文相关性平均分 3.84。 Stable Diffusion 3:整体满意度平均分 3.26,画面质量平均分 3.5,图文相关性平均分 4.2。 DALLE 3:整体满意度平均分 3.32,画面质量平均分 3.54,图文相关性平均分 4.22。 Midjourneyv5:整体满意度平均分 3.32,画面质量平均分 3.68,图文相关性平均分 4.02。 Playgroundv2.5:整体满意度平均分 3.37,画面质量平均分 3.73,图文相关性平均分 4.04。 Midjourneyv6:整体满意度平均分 3.58,画面质量平均分 3.92,图文相关性平均分 4.18。 Kolors:整体满意度平均分 3.59,画面质量平均分 3.99,图文相关性平均分 4.17。所有模型结果取自 2024.04 的产品版本。
2025-01-07
大模型的系统提示词
大模型的系统提示词主要包括以下方面: 1. 在“五津:一键生成‘摸鱼打工猫’视频”中,针对用户选择的主题和回答,总结用户的创作意图,如“打工猫摸鱼的 2 小时,在巴厘岛能看一场日落”,并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词,以数组形式输出到“tishici”,将用户意图输出到“biaoti”。 2. 在“云中江树:智能对决:提示词攻防中的 AI 安全博弈”中,系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意;模型侧对于有能力的厂商应增强安全性并平衡性能,开发者则要在开发中带着安全意识优化系统提示词,加入安全引导和禁止内容等;输出侧可使用传统防御和内容过滤手段,并针对大模型特点进行私有数据泄露等检查。此外,还提到间接注入和提示词泄露的情况,间接注入常发生在应用获取依赖外部数据资源时,攻击者通过隐藏恶意指令完成攻击;提示词泄露指试图操纵模型输出获取部分或全部系统提示词,大模型输出内容可分为系统提示词、用户提示和助手提示词三段,通过攻击手段可获取系统提示词。
2025-04-18
通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash,这3个视觉理解大模型哪个最厉害?
以下是对通义千问 Qwen2.5VL 模型的介绍: 版本:有 3B、7B 和 72B 三个尺寸版本。 主要优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai 然而,对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型,目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容,因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看,其在视觉理解方面具有较强的能力和优势。
2025-04-15
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
目前全世界最厉害的视频视觉理解大模型是哪个
目前全世界较为厉害的视频视觉理解大模型有以下几个: 1. 昆仑万维的 SkyReelsV1:不仅支持文生视频、图生视频,是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元:语义理解能力出色,能精准还原复杂的场景和动作,如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5:全球最快的 AI 视频生成模型,Turbo 模式下可在 10 秒内生成视频,最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能,具备顶尖动漫生成能力。
2025-04-15
目前全世界最厉害的视觉理解大模型是哪个
目前在视觉理解大模型方面,较为突出的有 DeepSeek 的 JanusPro 模型,它将图像理解和生成统一在一个模型中;还有通义千问的视觉理解模型,其价格有较大降幅。此外,Pixverse V3.5 是全球最快的 AI 视频生成模型,在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型,因为这取决于不同的评估标准和应用场景。
2025-04-15
大模型对话产品的优劣
大模型对话产品具有以下优点: 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验,具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接,产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务,适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景,如私有领域知识问答、个性化聊天机器人、智能助手等。 大模型对话产品也存在一些缺点: 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情,全靠用户脑补,导致用户上头期短,疲劳度高,长期留存低。 3. 无法回答私有领域问题(如公司制度、人员信息等)。 4. 无法及时获取最新信息(如实时天气、比赛结果等)。 5. 无法准确回答专业问题(如复杂数学计算、图像生成等)。
2025-04-14