Chat with Wiki - 大模型排名怎么查看

Answer

要查看大模型排名，您可以通过以下几种方式：

查阅相关的科技新闻网站、学术论坛或关注人工智能领域的社交媒体平台，这些渠道通常会及时发布最新的排名和评价。
在通往 AGI 之路的知识库里，在AI 研究报告版块-企业及媒体报告会定期更新相关的排名报告，可以供您查阅。
例如，您可以访问聊天机器人竞技场网站，输入一些问题，根据两个模型的响应选择获胜者，通过这种方式根据胜率计算 ELO 分数来确定排名。越高越好。目前表现最好的模型多为专有模型，如 OpenAI 的 GPT 系列，以及 Anthropic 的 Claude 系列等。
斯坦福发布的大模型排行榜 AlpacaEval 也可作为参考，其支持两种模式的模型评估方式：
- alpaca_eval：直接根据目标模型输出的响应来评估模型。
- alpaca_eval evaluate_from_model：根据 HuggingFace 已注册模型或这 API 提供商来端到端评测模型。评测过程分为以下 3 步：
  - 选择一个评估集，并计算指定为 model_outputs 的输出。默认情况下，使用来自 AlpacaEval 的 805 个示例。
  - 计算 golden 输出 reference_outputs。默认情况下，在 AlpacaEval 上使用 text-davinci-003 的输出。
  - 通过 annotators_config 选择指定的自动标注器，它将根据 model_outputs 和 reference_outputs 计算胜率。这里建议使用 alpaca_eval_gpt4 或 claude。根据不同的标注器，使用者还需要在环境配置中设定 API_KEY。

需要注意的是，内容由 AI 大模型生成，请仔细甄别。

Content generated by AI large model, please carefully verify (powered by aily)

References

中国国内的大模型排名可能在短时间内会有变化，作为AI机器人无法提供最新的信息。要获取最新的中国国内大模型排名，你可以查阅相关的科技新闻网站、学术论坛或关注人工智能领域的社交媒体平台，这些渠道通常会及时发布最新的排名和评价。在通往AGI之路的知识库里，在[AI研究报告版块](https://waytoagi.feishu.cn/wiki/WvhZwk16WiEnSvk8AcpcdZetnMe?table=tblzSv68AMuLhHj8&view=vewwFuhGE0)-[企业及媒体报告](https://waytoagi.feishu.cn/wiki/WvhZwk16WiEnSvk8AcpcdZetnMe?table=tblzSv68AMuLhHj8&view=vewwFuhGE0)会定期更新相关的排名报告，可以供您查阅。内容由AI大模型生成，请仔细甄别。

文章：Andrej Karpathy 亲授：大语言模型入门

我想提的另一件事是，我之前天真地描述了人类完成所有这些体力工作的过程。但这并不完全正确，而且它越来越不正确。这是因为这些语言模型同时变得更好。你基本上可以使用人机协作来创建这些标签，随着效率和正确性的提高。例如，你可以使用这些语言模型来获取示例答案。然后人们会挑选部分答案来创建一种单一的最佳答案。或者你可以要求这些模型尝试检查你的工作。或者你可以尝试让他们进行比较。然后你就像是一个监督角色。所以这是一种你可以确定的滑块。而且这些模型越来越好。我们正在将滑块向右移动。比较、标记文档、RLHF、合成数据、排行榜好的，最后，我想向你展示当前领先的大型语言模型的排行榜。例如，这就是聊天机器人竞技场。它由伯克利的一个团队管理。他们在这里所做的是根据ELO评级对不同的语言模型进行排名。计算ELO的方式与国际象棋中的计算方式非常相似。所以不同的棋手互相对弈。根据彼此的胜率，你可以计算他们的ELO分数。你可以使用语言模型做完全相同的事情。所以你可以访问这个网站，输入一些问题，你会得到两个模型的响应，你不知道它们是由什么模型生成的，然后你选择获胜者。然后根据谁赢谁输，你就可以计算出ELO分数。所以越高越好。所以你在这里看到的是，拥挤在顶部的是专有模型。这些是封闭模型，你无法访问权重，它们通常位于网络界面后面。这是OpenAI的GPT系列，以及Anthropic的Claude系列。还有其他公司的一些其他系列。所以这些是目前表现最好的模型。然后就在其下方，你将开始看到一些开放权重的模型。因此，这些权重是可用的，人们对它们有更多了解，通常有相关论文可用。例如，Meta的Llama2系列就是这种情况。或者在底部，你可以看到Zephyr 7b Beta，它基于法国另一家初创公司的Mistral系列。

斯坦福发布大模型排行榜AlpacaEval

图注：人类一致性：标注者与交叉标注集中人类多数票之间的一致性。价格：每1000个标注的平均价格。时间：计算1000个标注所需的平均时间。相对于人工标注，全自动化的AlpacaEval仅需花费约1/22的经济成本和1/25的时间成本。另外，还有一个关键问题：什么评估数据可以最好地区分模型。团队从统计角度出发，在AlpacaEval的所有子集上检验这个问题。下图显示了AlpacaEval每个子集的80个实例上每对模型的配对t检验的p值。例如，我们看到Self-Instruct数据集产生的统计能力最小，这表明可以从评估集中删除该数据集。图注：不同基准评估数据集的质量02如何使用AlpacaEval评估模型AlpacaEval支持两种模式的模型评估方式：alpaca_eval：直接根据目标模型输出的响应来评估模型。alpaca_eval evaluate_from_model：根据HuggingFace已注册模型或这API提供商来端到端评测模型。评测过程分为以下3步：1.选择一个评估集，并计算指定为model_outputs的输出。默认情况下，我们使用来自AlpacaEval的805个示例。Copy1.计算golden输出reference_outputs。默认情况下，在AlpacaEval上使用text-davinci-003的输出。2.通过annotators_config选择指定的自动标注器，它将根据model_outputs和reference_outputs计算胜率。这里建议使用alpaca_eval_gpt4或claude。根据不同的标注器，使用者还需要在环境配置中设定API_KEY。