Chat with Wiki - 模型排行榜

Answer

以下是关于模型排行榜的相关信息：

斯坦福发布了大模型排行榜 AlpacaEval：
- 这是一种基于 LLM 的全自动评估基准，更加快速、廉价和可靠。
- 项目链接：https://github.com/tatsu-lab/alpaca_eval ，排行榜链接：https://tatsu-lab.github.io/alpaca_eval/ 。
- 选择了开源和闭源模型，还开设了“准中文”排行榜。
- 分为以 GPT-4 和 Claude 为元标注器的两个子榜单。
- 在 GPT-4 评估榜单中，GPT-4 稳居第一，Claude 和 ChatGPT 分别排名第二和第三，开源模型中的 WizardLM 排名第四，Vicuna 排名第六，Falcon Instruct 40B 位居 12 名。
- 相比其他 LLM 自动评测器，如 alpaca_farm_greedy_gpt4、aviary_gpt4、lmsys_gpt4 还有人类评估，斯坦福的 AlpacaEval 评测器采用的 GPT-4 评测方式取得了最高的人类一致性，以及较低的误差，并仅需约 1/22 的人类标注成本。
- 支持两种模式的模型评估方式。
Andrej Karpathy 提到了另一个排行榜——聊天机器人竞技场，由伯克利的团队管理，根据 ELO 评级对不同语言模型进行排名，计算方式与国际象棋中的类似，顶部是专有模型，下方是开放权重的模型。

Content generated by AI large model, please carefully verify (powered by aily)

References

来自斯坦福的团队，发布了一款LLM自动评测系统——AlpacaEval，以及对应的AlpacaEval Leaderboard。这个全新的大语言模型排行榜AlpacaEval，它是一种基于LLM的全自动评估基准，且更加快速、廉价和可靠。项目链接：https://github.com/tatsu-lab/alpaca_eval排行榜链接：https://tatsu-lab.github.io/alpaca_eval/该研究团队选择了目前在开源社区很火的开源模型，还有GPT-4、PaLM 2等众多「闭源」模型，甚至还开设了一个「准中文」排行榜。AlpacaEval分为以GPT-4和Claude为元标注器的两个子榜单。在斯坦福的这个GPT-4评估榜单中：GPT-4稳居第一，胜率超过了95%；胜率都在80%以上的Claude和ChatGPT分别排名第二和第三，其中Claude以不到3%的优势超越ChatGPT。值得关注的是，获得第四名的是一位排位赛新人——微软华人团队发布的WizardLM。在所有开源模型中，WizardLM以仅130亿的参数版本排名第一，击败了650亿参数量的Guanaco。而在开源模型中的佼佼者Vicuna发挥依然稳定，凭借着超过70%的胜率排在第六，胜率紧追Guanaco 65B。最近大火的Falcon Instruct 40B表现不佳，仅位居12名，略高于Alpaca Farm 7B。PART 01AlpacaEval技术细节01AlpacaEval评估效果

斯坦福发布大模型排行榜AlpacaEval

那么相比其他的LLM自动评测器，如alpaca_farm_greedy_gpt4、aviary_gpt4、lmsys_gpt4，还有人类（humans）评估，斯坦福的AlpacaEval评测器有什么特别？在AlpacaEval set上，斯坦福AlpacaEval团队通过与2.5K条人工标注结果（每个指令平均包含4个人工标注）对比，研究人员评估了不同的自动标注器的性能。对比结果显示，AlpacaEval采用的GPT-4评测方式取得了最高的人类一致性，以及较低的误差，并仅需约1/22的人类标注成本。图注：人类一致性：标注者与交叉标注集中人类多数票之间的一致性。价格：每1000个标注的平均价格。时间：计算1000个标注所需的平均时间。相对于人工标注，全自动化的AlpacaEval仅需花费约1/22的经济成本和1/25的时间成本。另外，还有一个关键问题：什么评估数据可以最好地区分模型。团队从统计角度出发，在AlpacaEval的所有子集上检验这个问题。下图显示了AlpacaEval每个子集的80个实例上每对模型的配对t检验的p值。例如，我们看到Self-Instruct数据集产生的统计能力最小，这表明可以从评估集中删除该数据集。图注：不同基准评估数据集的质量02如何使用AlpacaEval评估模型AlpacaEval支持两种模式的模型评估方式：

文章：Andrej Karpathy 亲授：大语言模型入门

好的，最后，我想向你展示当前领先的大型语言模型的排行榜。例如，这就是聊天机器人竞技场。它由伯克利的一个团队管理。他们在这里所做的是根据ELO评级对不同的语言模型进行排名。计算ELO的方式与国际象棋中的计算方式非常相似。所以不同的棋手互相对弈。根据彼此的胜率，你可以计算他们的ELO分数。你可以使用语言模型做完全相同的事情。所以你可以访问这个网站，输入一些问题，你会得到两个模型的响应，你不知道它们是由什么模型生成的，然后你选择获胜者。然后根据谁赢谁输，你就可以计算出ELO分数。所以越高越好。所以你在这里看到的是，拥挤在顶部的是专有模型。这些是封闭模型，你无法访问权重，它们通常位于网络界面后面。这是OpenAI的GPT系列，以及Anthropic的Claude系列。还有其他公司的一些其他系列。所以这些是目前表现最好的模型。然后就在其下方，你将开始看到一些开放权重的模型。因此，这些权重是可用的，人们对它们有更多了解，通常有相关论文可用。例如，Meta的Llama2系列就是这种情况。或者在底部，你可以看到Zephyr 7b Beta，它基于法国另一家初创公司的Mistral系列。