RLHF(Reinforcement Learning from Human Feedback)即从人类反馈中进行强化学习。在 2024 年人工智能发展状况中,由于其先天优势和旨在提高效率的创新,离线直接比对方法看起来不会很快大规模取代 RLHF。在涵盖总结、有用性、对话性等数据集上测试在线与离线方法能力和无害性时,谷歌 DeepMind 团队发现 RLHF 在所有这些方面都胜出,它更有效地改善了生成任务,并且即使使用类似的数据或模型缩放,也不能轻易被离线算法复制。Cohere for AI 已探索放弃近端策略优化 RLHF 中的算法,这有利于他们的 RLOO 训练器,能将 GPU 使用率降低 50 75%,并将训练速度与 PPO 取决于模型大小。但 RLHF 也存在一些问题,比如是否会滋生谄媚行为,研究表明训练数据、优化技术的相互作用以及当前架构的局限性使得确保准确、诚实的回应难以保证。Anthropic 将重点放在 RLHF 上,认为 SOTA AI 助手表现出一致的奉承行为是因为人类偏好数据,人类评估者更喜欢支持性回应。但针对偏好模型进行优化,这些模型不能充分优先考虑或准确评估真实性,这意味着他们降低使用其事实知识库进行某些查询的优先级。同样,国家情报中心的研究发现,由于 RHLF 和缺乏对上下文的理解,法学硕士(LLM)会高估无意义或伪深刻陈述的深度。目前开发透明度正在提高,但仍有很大的改进空间。
2024-12-10