以下是关于模型评估的相关内容:
斯坦福发布了大模型排行榜 AlpacaEval 。
AlpacaEval 直接根据目标模型输出的响应来评估模型,其 evaluate_from_model 可根据 HuggingFace 已注册模型或 API 提供商来端到端评测模型。评测过程分为以下 3 步:
目前,AlpacaEval 团队已开源所有模型评估代码和分析数据,以及支持未来新模型榜单更新的测试工具。但它仍不是一个全面的模型能力评测系统,存在一些局限性,如指令比较简单、评分可能更偏向于风格而非事实、没有衡量模型可能造成的危害。
相比其他的 LLM 自动评测器,如 alpaca_farm_greedy_gpt4、aviary_gpt4、lmsys_gpt4 及人类评估,斯坦福的 AlpacaEval 评测器在 AlpacaEval set 上,通过与 2.5K 条人工标注结果(每个指令平均包含 4 个人工标注)对比,其采用的 GPT-4 评测方式取得了最高的人类一致性,以及较低的误差,并仅需约 1/22 的人类标注成本。
另外,关于什么评估数据可以最好地区分模型,团队从统计角度出发,在 AlpacaEval 的所有子集上进行了检验。
在模型评估方面,还包括模型能力的基准和评估,需考虑无需额外训练的适配任务数量、学习新的独特任务的可适应性、自主程度、可扩展性、可使用的工具等。对于具有系统风险的通用人工智能模型,委员会应考虑模型的参数数量、数据集的质量或大小、训练模型所用的计算量等标准。还应说明模型要件及其开发过程,包括将通用人工智能模型纳入人工智能系统所需的技术手段等。
alpaca_eval:直接根据目标模型输出的响应来评估模型。alpaca_eval evaluate_from_model:根据HuggingFace已注册模型或这API提供商来端到端评测模型。评测过程分为以下3步:1.选择一个评估集,并计算指定为model_outputs的输出。默认情况下,我们使用来自AlpacaEval的805个示例。Copy1.计算golden输出reference_outputs。默认情况下,在AlpacaEval上使用text-davinci-003的输出。2.通过annotators_config选择指定的自动标注器,它将根据model_outputs和reference_outputs计算胜率。这里建议使用alpaca_eval_gpt4或claude。根据不同的标注器,使用者还需要在环境配置中设定API_KEY。目前,AlpacaEval团队已开源所有模型评估代码和分析数据,以及支持未来新模型榜单更新的测试工具。显然AlpacaEval对LLM模型评测来说很实用,但它仍不是一个全面的的模型能力评测系统,还有一些局限性:(1)指令比较简单;(2)评分时可能更偏向于风格而非事实;(3)没有衡量模型可能造成的危害。
那么相比其他的LLM自动评测器,如alpaca_farm_greedy_gpt4、aviary_gpt4、lmsys_gpt4,还有人类(humans)评估,斯坦福的AlpacaEval评测器有什么特别?在AlpacaEval set上,斯坦福AlpacaEval团队通过与2.5K条人工标注结果(每个指令平均包含4个人工标注)对比,研究人员评估了不同的自动标注器的性能。对比结果显示,AlpacaEval采用的GPT-4评测方式取得了最高的人类一致性,以及较低的误差,并仅需约1/22的人类标注成本。图注:人类一致性:标注者与交叉标注集中人类多数票之间的一致性。价格:每1000个标注的平均价格。时间:计算1000个标注所需的平均时间。相对于人工标注,全自动化的AlpacaEval仅需花费约1/22的经济成本和1/25的时间成本。另外,还有一个关键问题:什么评估数据可以最好地区分模型。团队从统计角度出发,在AlpacaEval的所有子集上检验这个问题。下图显示了AlpacaEval每个子集的80个实例上每对模型的配对t检验的p值。例如,我们看到Self-Instruct数据集产生的统计能力最小,这表明可以从评估集中删除该数据集。图注:不同基准评估数据集的质量02如何使用AlpacaEval评估模型AlpacaEval支持两种模式的模型评估方式:
e.模型能力的基准和评估,包括考虑无需额外训练的适配任务数量、学习新的独特任务的可适应性、其自主程度和可扩展性、可使用的工具;f.由于其覆盖范围,而对内部市场的影响很大,如已提供给至少10000个设立在联盟之内的注册商业用户,则应加以推定;g.注册的终端部署者数量。e)与使用通用人工智能模型有关的相关软件版本,如适用;f)结构和参数数量、g)输入和输出的模态(如文本、图像)和格式;h)模型许可;2.模型要件及其开发过程的说明,包括a)将通用人工智能模型纳入人工智能系统所需的技术手段(如使用说明、基础设施、工具)。附件十三制定第51条所述的具有系统风险的通用人工智能模型的标准为确定通用人工智能模型是否具有与第51条第a和b点等价的能力或影响,委员会应考虑以下标准:a.模型的参数数量;b.数据集的质量或大小,例如通过词元来衡量;c.训练模型所用的计算量,以浮点运算数衡量,或由其他变量组合表示,如估计的训练成本、估计的训练所需时间或估计的训练能耗;