与知识库对话

以下是知识库里与“评估”相关的内容：提示工程：评估程序在优化系统设计时很有用。好的评估程序需要具备以下特点：具有代表性：能够代表真实世界的使用场景，或者至少包含多样化的测试用例。样本量充足：拥有足够的测试用例，以保证统计结果的可靠性。易于自动化：可以自动运行或重复执行。评估工作可以由计算机、人类或两者协作完成。计算机可以使用客观标准以及一些主观或模糊标准自动执行评估，其中模型输出由其他模型查询评估。是一个开源软件框架，提供了创建自动评估程序的工具。基于模型的评估在评估具有多种可能答案的问题时非常有用，模型可以根据预定义的标准对不同的答案进行评分，帮助我们选择最佳答案。可以用模型进行评估和需要人工评估之间的界限是模糊的，并且随着模型变得越来越强大而不断变化。 OpenAI 官方指南：评估程序（或称为“Evals”）对于优化系统设计非常有用。良好的评估：代表现实世界的使用（或至少是多样化的）。包含许多测试用例以获得更大的统计能力。易于自动化或重复。输出的评估可以由计算机、人类或混合来完成。计算机可以使用客观标准以及一些主观或模糊标准来自动评估，其中模型输出由其他模型查询评估。是一个开源软件框架，提供用于创建自动评估的工具。当存在一系列可能被认为质量相同的输出时，基于模型的评估可能很有用。使用基于模型的评估可以实际评估的内容与需要人工评估的内容之间的界限是模糊的，并且随着模型变得更强大而不断变化。 Gemini 报告：为了评估 Gemini 模型在政策领域和其他在影响评估中确定的关键风险领域中的表现，在模型开发的整个生命周期中开展了一系列评估。在训练和优化 Gemini 模型过程中，会进行开发评估以进行“hillclimbing”。这些评估是由 Gemini 团队设计的，或者是针对外部学术基准的评估。评估考虑诸如有用性（指令遵循和创造力）、安全性和事实性等问题。保证评估是为了治理和审查而进行的，通常在关键里程碑或培训运行结束时由模型开发团队之外的团队进行。保证评估按照模态进行标准化，数据集严格保密。只有高层次的见解被反馈到训练过程中，以协助缓解工作。保证评估包括对 Gemini 政策的测试，并包括对潜在生物危害、说服力和网络安全等危险能力的持续测试。外部评估由谷歌之外的合作伙伴进行，以发现盲点。外部团体对模型进行了一系列问题的压力测试，包括白宫承诺书中列出的领域，测试通过结构化评估和非结构化的红队测试进行。这些评估的设计是独立的，并且结果定期报告给 Google DeepMind 团队。