Chat with Wiki - 大模型排名以及排名的评测标准维度是什么

Answer

以下是一些常见的大模型排名及评测标准维度：

FlagEval（天秤）大模型评测体系及开放平台：
- 地址：https://github.com/FlagOpen/FlagEval
- 简介：旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能，同时探索利用 AI 方法实现对主观评测的辅助，大幅提升评测的效率和客观性。创新构建了“能力-任务-指标”三维评测框架，细粒度刻画基础模型的认知能力边界，可视化呈现评测结果。
C-Eval：
- 地址：https://github.com/SJTU-LIT/ceval
- 简介：构造了一个覆盖人文，社科，理工，其他专业四个大方向，52 个学科（微积分，线代…），从中学到大学研究生以及职业考试，一共 13948 道题目的中文知识和推理型测试集。此外还给出了当前主流中文 LLM 的评测结果。
SuperCLUElyb：
- 地址：https://github.com/CLUEbenchmark/SuperCLUElyb
- 简介：中文通用大模型匿名对战评价基准，这是一个中文通用大模型对战评价基准，它以众包的方式提供匿名、随机的对战。他们发布了初步的结果和基于 Elo 评级系统的排行榜。

斯坦福发布的大模型排行榜 AlpacaEval：

项目链接：https://github.com/tatsu-lab/alpaca_eval
排行榜链接：https://tatsu-lab.github.io/alpaca_eval/
- 该研究团队选择了目前在开源社区很火的开源模型，还有 GPT-4、PaLM 2 等众多「闭源」模型，甚至还开设了一个「准中文」排行榜。
- AlpacaEval 分为以 GPT-4 和 Claude 为元标注器的两个子榜单。
- 在斯坦福的这个 GPT-4 评估榜单中：
  - GPT-4 稳居第一，胜率超过了 95%；胜率都在 80%以上的 Claude 和 ChatGPT 分别排名第二和第三，其中 Claude 以不到 3%的优势超越 ChatGPT。
  - 值得关注的是，获得第四名的是一位排位赛新人——微软华人团队发布的 WizardLM。在所有开源模型中，WizardLM 以仅 130 亿的参数版本排名第一，击败了 650 亿参数量的 Guanaco。
  - 而在开源模型中的佼佼者 Vicuna 发挥依然稳定，凭借着超过 70%的胜率排在第六，胜率紧追 Guanaco 65B。
  - 最近大火的 Falcon Instruct 40B 表现不佳，仅位居 12 名，略高于 Alpaca Farm 7B。

AlpacaEval 的技术细节：

人类一致性：标注者与交叉标注集中人类多数票之间的一致性。
价格：每 1000 个标注的平均价格。
时间：计算 1000 个标注所需的平均时间。相对于人工标注，全自动化的 AlpacaEval 仅需花费约 1/22 的经济成本和 1/25 的时间成本。

AlpacaEval 评估模型的方式：

alpaca_eval：直接根据目标模型输出的响应来评估模型。
alpaca_eval evaluate_from_model：根据 HuggingFace 已注册模型或这 API 提供商来端到端评测模型。评测过程分为以下 3 步：
1. 选择一个评估集，并计算指定为 model_outputs 的输出。默认情况下，使用来自 AlpacaEval 的 805 个示例。
2. 计算 golden 输出 reference_outputs。默认情况下，在 AlpacaEval 上使用 text-davinci-003 的输出。
3. 通过 annotators_config 选择指定的自动标注器，它将根据 model_outputs 和 reference_outputs 计算胜率。这里建议使用 alpaca_eval_gpt4 或 claude。根据不同的标注器，使用者还需要在环境配置中设定 API_KEY。

Content generated by AI large model, please carefully verify (powered by aily)

References

LLM开源中文大语言模型及数据集集合

FlagEval（天秤）大模型评测体系及开放平台地址：[https://github.com/FlagOpen/FlagEval](https://github.com/FlagOpen/FlagEval)简介：旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能，同时探索利用AI方法实现对主观评测的辅助，大幅提升评测的效率和客观性。FlagEval（天秤）创新构建了“能力-任务-指标”三维评测框架，细粒度刻画基础模型的认知能力边界，可视化呈现评测结果。C-Eval:构造中文大模型的知识评估基准：地址：[https://github.com/SJTU-LIT/ceval](https://github.com/SJTU-LIT/ceval)简介：构造了一个覆盖人文，社科，理工，其他专业四个大方向，52个学科（微积分，线代…），从中学到大学研究生以及职业考试，一共13948道题目的中文知识和推理型测试集。此外还给出了当前主流中文LLM的评测结果。SuperCLUElyb:SuperCLUE琅琊榜地址：[https://github.com/CLUEbenchmark/SuperCLUElyb](https://github.com/CLUEbenchmark/SuperCLUElyb)简介：中文通用大模型匿名对战评价基准，这是一个中文通用大模型对战评价基准，它以众包的方式提供匿名、随机的对战。他们发布了初步的结果和基于Elo评级系统的排行榜。

斯坦福发布大模型排行榜AlpacaEval

来自斯坦福的团队，发布了一款LLM自动评测系统——AlpacaEval，以及对应的AlpacaEval Leaderboard。这个全新的大语言模型排行榜AlpacaEval，它是一种基于LLM的全自动评估基准，且更加快速、廉价和可靠。项目链接：https://github.com/tatsu-lab/alpaca_eval排行榜链接：https://tatsu-lab.github.io/alpaca_eval/该研究团队选择了目前在开源社区很火的开源模型，还有GPT-4、PaLM 2等众多「闭源」模型，甚至还开设了一个「准中文」排行榜。AlpacaEval分为以GPT-4和Claude为元标注器的两个子榜单。在斯坦福的这个GPT-4评估榜单中：GPT-4稳居第一，胜率超过了95%；胜率都在80%以上的Claude和ChatGPT分别排名第二和第三，其中Claude以不到3%的优势超越ChatGPT。值得关注的是，获得第四名的是一位排位赛新人——微软华人团队发布的WizardLM。在所有开源模型中，WizardLM以仅130亿的参数版本排名第一，击败了650亿参数量的Guanaco。而在开源模型中的佼佼者Vicuna发挥依然稳定，凭借着超过70%的胜率排在第六，胜率紧追Guanaco 65B。最近大火的Falcon Instruct 40B表现不佳，仅位居12名，略高于Alpaca Farm 7B。PART 01AlpacaEval技术细节01AlpacaEval评估效果

斯坦福发布大模型排行榜AlpacaEval

图注：人类一致性：标注者与交叉标注集中人类多数票之间的一致性。价格：每1000个标注的平均价格。时间：计算1000个标注所需的平均时间。相对于人工标注，全自动化的AlpacaEval仅需花费约1/22的经济成本和1/25的时间成本。另外，还有一个关键问题：什么评估数据可以最好地区分模型。团队从统计角度出发，在AlpacaEval的所有子集上检验这个问题。下图显示了AlpacaEval每个子集的80个实例上每对模型的配对t检验的p值。例如，我们看到Self-Instruct数据集产生的统计能力最小，这表明可以从评估集中删除该数据集。图注：不同基准评估数据集的质量02如何使用AlpacaEval评估模型AlpacaEval支持两种模式的模型评估方式：alpaca_eval：直接根据目标模型输出的响应来评估模型。alpaca_eval evaluate_from_model：根据HuggingFace已注册模型或这API提供商来端到端评测模型。评测过程分为以下3步：1.选择一个评估集，并计算指定为model_outputs的输出。默认情况下，我们使用来自AlpacaEval的805个示例。Copy1.计算golden输出reference_outputs。默认情况下，在AlpacaEval上使用text-davinci-003的输出。2.通过annotators_config选择指定的自动标注器，它将根据model_outputs和reference_outputs计算胜率。这里建议使用alpaca_eval_gpt4或claude。根据不同的标注器，使用者还需要在环境配置中设定API_KEY。