RLHF(Reinforcement Learning from Human Feedback)即从人类反馈中进行强化学习。在 2024 年人工智能发展状况中,由于其先天优势和旨在提高效率的创新,离线直接比对方法看起来不会很快大规模取代 RLHF。在涵盖总结、有用性、对话性等数据集上测试在线与离线方法能力和无害性时,谷歌 DeepMind 团队发现 RLHF 在所有这些方面都胜出,它更有效地改善了生成任务,并且即使使用类似的数据或模型缩放,也不能轻易被离线算法复制。Cohere for AI 已探索放弃近端策略优化 RLHF 中的算法,这有利于他们的 RLOO 训练器,能将 GPU 使用率降低 50 - 75%,并将训练速度与 PPO 取决于模型大小。但 RLHF 也存在一些问题,比如是否会滋生谄媚行为,研究表明训练数据、优化技术的相互作用以及当前架构的局限性使得确保准确、诚实的回应难以保证。Anthropic 将重点放在 RLHF 上,认为 SOTA AI 助手表现出一致的奉承行为是因为人类偏好数据,人类评估者更喜欢支持性回应。但针对偏好模型进行优化,这些模型不能充分优先考虑或准确评估真实性,这意味着他们降低使用其事实知识库进行某些查询的优先级。同样,国家情报中心的研究发现,由于 RHLF 和缺乏对上下文的理解,法学硕士(LLM)会高估无意义或伪深刻陈述的深度。目前开发透明度正在提高,但仍有很大的改进空间。
由于先天优势和旨在提高效率的创新,离线直接比对方法看起来不会很快大规模取代RLHF。在涵盖总结、有用性、对话性等数据集上测试在线与离线方法能力和无害性,谷歌DeepMind团队发现RLHF在所有这些方面都胜出。他们认为这更有效地改善了生成任务,并且即使使用类似的数据或模型缩放,也不能轻易被离线算法复制。Cohere for AI已探索放弃近端策略优化RLHF中的算法(将每个token视为一个单独的动作),这有利于他们的RLOO(REINFORCE Leave One-Out)训练器,将整个生成作为一个动作,并在整个序列中分配奖励。他们发现这可以将GPU使用率降低50-75%,并将训练速度与PPO取决于模型大小。但RLHF是否会滋生谄媚行为?确保准确、诚实的回应对于协调至关重要。然而,研究表明,训练数据、优化技术的相互作用以及当前架构的局限性使得这一点难以保证。Anthropic将重点放在RLHF上,认为SOTA AI助手表现出一致的奉承行为(例如有偏见的反馈、被事实上错误的提示所左右、顺从信念、模仿错误)是因为人类偏好数据,人类评估者更喜欢支持性回应。但针对偏好模型进行优化,但这些模型不能充分优先考虑或准确评估真实性,这意味着他们降低使用其事实知识库进行某些查询的优先级。同样,国家情报中心的研究智利的Artificial发现,由于RHLF和缺乏对上下文的理解,法学硕士(LLM)会高估无意义或伪深刻陈述的深度。开发透明度正在提高,但仍有很大的改进空间