Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

科普下PPO

Answer

PPO(Proximal Policy Optimization,近端策略优化)是 OpenAI 提出的一种强化学习优化方法。 在训练 ChatGPT 等模型时,得到 SFT 和 RM 模型后,将它们串联在一起,固定住 RM,利用 RM 的 loss 对 SFT 做梯度回传。PPO 阶段的完整 loss 包含以下几项: 1. 第一项是串联 $$\\pi_{\\phi}^\\text{RL}$$ 和 RM 做联合梯度回传。具体是从 $$\\pi_{\\phi}^\\text{RL}$$ 采样出 prompt 和 completion 样本对,让 RM 模型 $$r_\\theta(x,y)$$ 做打分和给 loss,通过梯度回传优化 $$\\pi_{\\phi}^\\text{RL}$$ 的参数权重。 2. 第二项是希望新学的 $$\\pi_{\\phi}^\\text{RL}$$ 不要距离初始的 SFT 太远,用 KL 散度约束住两者的输出概率。因为 RM 网络跟 SFT 是绑定的,如果新学的 $$\\pi_{\\phi}^\\text{RL}$$ 输出分布距离 SFT 太远,RM 网络可能就不适用了。 3. 第三项是防止 $$\\pi_{\\phi}^\\text{RL}$$ 过拟合 RM 打分这个任务,添加训练 SFT 的 loss,即从 SFT 训练的数据里面采样包含 prompt 和 completion 的样本,无监督训练 $$\\pi_{\\phi}^\\text{RL}$$ 。 PPO-ptx 是上述三项系数都不为 0 的情况,而 PPO 是指第三项系数 $$\\gamma$$ 为 0,前两项系数不为 0 的情况。此外,RM 训练和 PPO 训练可以交替进行,即得到新的 $$\\pi_{\\phi}^{\\text{SFT}}$$ 模型后训练一个匹配的 SM 模型,然后固定 SM 模型按 $$\\text{objective}(\\phi)$$ 的损失函数继续训练 $$\\pi_{\\phi}^{\\text{SFT}}$$ 模型,如此交替。 在 GPT 的现状中,例如 ChatGPT 就是一个 RLHF 模型,人类在很多比较中更喜欢来自 RLHF 模型的 token(输出文字),但 RLHF 模型并非在所有情况下都比基础模型有改进,例如会损失一些熵,导致输出变化更小。
Content generated by AI large model, please carefully verify (powered by aily)

References

(3)ChatBot是怎么炼成的?

得到了SFT和RM模型之后,剩下的就是把他们串联在一起,固定住RM,利用RM的loss对SFT做梯度回传。这个阶段的完整loss如下所示上述$$\pi_{\phi}^{\text{SFT}}$$就是SFT网络,$$\pi_{\phi}^\text{RL}$$是从SFT网络初始化而来,因此也是个GPT-like网络,能生成回答。第一项就是前文说的串联$$\pi_{\phi}^\text{RL}$$和RM做联合梯度回传。具体来说从$$\pi_{\phi}^\text{RL}$$采样出prompt和completion样本对,让RM模型$$r_\theta(x,y)$$做打分和给loss,通过梯队回传优化$$\pi_{\phi}^\text{RL}$$的参数权重第二项是希望新学的$$\pi_{\phi}^\text{RL}$$不要距离初始的SFT太远,解决方法是用KL散度约束住两者的输出概率。背后的原因是前文提到过RM网络跟SFT其实是绑定的,如果新学的$$\pi_{\phi}^\text{RL}$$输出分布距离SFT太远的话,那么RM网络本身可能就不适用了第三项是防止$$\pi_{\phi}^\text{RL}$$过拟合RM打分这个任务,因为作者发现在其他NLP任务上(例如SQuADv2)有效果回退。因此添加上训练SFT的loss,即从SFT训练的数据里面采样包含prompt和completion的样本,无监督训练$$\pi_{\phi}^\text{RL}$$PPO(Proximal Policy Optimization)本来是OpenAI提出的RL优化方法,属于传统艺能,在这里

GPT 的现状(State of GPT)

然后最后,你会得到一个可以部署的模型。例如,ChatGPT就是一个RLHF模型,但是你可能会遇到一些其他的模型,比如说Vicuna-13B(俗称小羊驼模型)等,这些都是SFT模型。我们有基础模型、SFT模型和RLHF模型,这就是目前的状态。现在你可能会问为什么你会想做RLHF?答案可能并不那么激动人心,那就是它的效果更好。这张图来自于instructGPT论文。根据这些已经过去一段时间的实验,这些PPO模型是RLHF。我们看到,当我们提供给人类时,他们在很多比较中都更喜欢这些模型。与提示为助手的基础模型相比、与SFT模型相比,人类基本上更喜欢来自RLHF模型的token(输出文字)。所以,它的效果就是更好。但你可能会问为什么?为什么它的效果更好?我认为并没有一个社区真正达成一致的令人惊讶的答案,但我会提供一个可能的原因,它与比较与生成在计算上的容易度之间的不对称性有关。让我们以生成一个俳句为例。假设我让一个模型写一首关于回形针的俳句。如果你是一个试图提供训练数据的承包商,那么想象一下作为一个收集SFT数据的承包商。你应该如何创建一个关于回形针的好俳句呢?你可能就是不擅长这个,但是如果我给你几个俳句的例子,你可能能够更欣赏其中的一些俳句。因此,判断哪一个好是一个更简单的任务。基本上,这种不对称性使得比较可能是一个更好的方式,可以更好地利用你作为人的判断,以创建一个稍微更好的模型。现在,RLHF模型并不是在所有情况下都比基础模型有改进。特别是,我们注意到,例如,RLHF会损失一些熵。这意味着它们可以输出变化更小的样本,它们可以输出比基础模型更低变化的样本。基础模型有很多熵,会给出多样性的输出。

(3)ChatBot是怎么炼成的?

PPO-ptx是上述三项系数都不为0的情况PPO是指第三项系数$$\gamma$$为0,前两项系数不为0的情况此外RM训练和PPO训练可以交替进行,即得到新的$$\pi_{\phi}^{\text{SFT}}$$模型后训练一个匹配的SM模型,然后固定SM模型按$$\text{objective}(\phi)$$的损失函数继续训练$$\pi_{\phi}^{\text{SFT}}$$模型,如此交替

Others are asking
有关 ai agent 的科普文章
以下是为您提供的关于 AI Agent 的科普内容: AI Agent 是一个融合了多学科精髓的综合实体,包括语言学、心理学、神经学、逻辑学、社会科学和计算机科学等。它不仅有实体形态,还有丰富的概念形态,并具备许多人类特有的属性。 目前,关于 AI Agent 存在一些情况。例如,网络上对其的介绍往往晦涩难懂,让人感觉神秘莫测,其自主性、学习能力、推理能力等核心概念,以及如何规划和执行任务、理解并处理信息等方面,都像是笼罩在一层神秘面纱之下。 另外,以国与国之间的外交为例来解释相关协议。假设每个 AI 智能体(Agent)就是一个小国家,它们各自有自己的语言和规矩。各国大使馆试图互相沟通、做生意、交换情报,但现实中存在诸多问题,如协议各异、要求不同等。 如果您想了解更多关于 AI Agent 的详细内容,可访问: 。
2025-04-15
AI通识科普文章
以下是为您提供的 AI 通识科普相关内容: 对于对 AI 都没太多概念的纯纯小白: 现有常见 AI 工具小白扫盲:(1 小时 32 分开始)。 AI 常见名词、缩写解释: 。 新手学习 AI 的步骤: 了解 AI 基本概念:建议阅读「」部分,熟悉 AI 的术语和基础概念,了解人工智能的主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 开始 AI 学习之旅:在「」中,您将找到一系列为初学者设计的课程。特别推荐李宏毅老师的课程。您还可以通过在线教育平台(如 Coursera、edX、Udacity)上的课程按照自己的节奏学习,并有机会获得证书。 选择感兴趣的模块深入学习:AI 领域广泛(比如图像、音乐、视频等),您可以根据自己的兴趣选择特定的模块进行深入学习。建议一定要掌握提示词的技巧,它上手容易且很有用。 实践和尝试:理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出您的作品。在知识库提供了很多大家实践后的作品、文章分享,欢迎您实践后的分享。 体验 AI 产品:与现有的 AI 产品进行互动是学习 AI 的另一种有效方式。尝试使用如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。 入门经典必读:作者为 。文中提到人工智能的研究正在以指数级别的速度增长,对于初学者来说跟上新发布的内容很难,因此分享了一份用于更深入了解现代 AI 的精选资源列表,称为“AI 典藏”,包括对 Transformer 和 Latent Diffusion 模型的介绍、技术学习资源、构建大型语言模型的实用指南、AI 市场的分析以及里程碑式研究成果的参考列表等。
2025-04-14
有什么好的 AI 科普文章
以下为一些不错的 AI 科普文章: 通识篇: 现有常见 AI 工具小白扫盲: AI 常见名词、缩写解释: AIGC Weekly19: 开源图像模型 Stable Diffusion 入门手册 腾讯:介绍了 Stable Diffusion 的使用入门指南,包括硬件需求、安装 Python 和 Git、装配模型以及图像生成等内容。 AIGC 之我见 马丁的面包屑:产品经理、独立开发者马丁整理的自己关于 AIGC 的一些碎片化思考。 多邻国创始人 Luis von Ahn 专访:介绍了 Luis von Ahn 创建多邻国的过程和对 AI 的一些思考,特别是 AI 对教育的影响。 自监督学习 CookBook Mate:Meta AI 发布的为 AI 研究人员和从业者提供使用 SSL 方法的实用指南。 大语言模型发展历程:回顾了大语言模型的发展历程,介绍了历代先驱者的研究成果。 入门经典必读: 软件 2.0:Andrej Karpathy 是最早清楚解释为什么新的 AI 浪潮真正重要的人之一。 GPT 的现状:Andrej Karpathy 对 ChatGPT/GPT 模型一般如何工作、如何使用以及研发可能采取的方向的解释。 ChatGPT 是在做什么,为什么它有效?:计算机科学家和企业家 Stephen Wolfram 从一开始的原理解释了现代 AI 模型的工作原理。 解析 Transformer 模型:理解 GPT3、BERT 和 T5 背后的模型:对“什么是 LLM,它是如何工作的?”这个问题的更短、更直接的回答。
2025-03-21
我想跟大概40岁左右的科研从业者科普人工智能和大模型的相关知识,挑选合适的内容作为提纲。
以下是为您挑选的向 40 岁左右科研从业者科普人工智能和大模型的提纲内容: 一、AI 大模型的基本概念 1. 生成式 AI 生成的内容称为 AIGC 2. 相关技术名词 AI:人工智能 机器学习:电脑找规律学习,包括监督学习、无监督学习、强化学习 监督学习:有标签的训练数据,学习输入和输出之间的映射关系,包括分类和回归 无监督学习:学习的数据没有标签,算法自主发现规律,经典任务如聚类 强化学习:从反馈里学习,最大化奖励或最小化损失,类似训小狗 深度学习:参照人脑有神经网络和神经元,因层数多称为深度,神经网络可用于多种学习方式 生成式 AI:可以生成文本、图片、音频、视频等内容形式 LLM:大语言模型,生成图像的扩散模型不是大语言模型,大语言模型的生成只是处理任务之一,如谷歌的 BERT 模型可用于语义理解 二、AI 大模型的技术里程碑 1. 2017 年 6 月,谷歌团队发表论文《Attention is All You Need》,首次提出 Transformer 模型,完全基于自注意力机制处理序列数据,不依赖循环神经网络或卷积神经网络 三、AI 模型及相关进展 1. 包括视频生成模型、相关论文,以及 AI 在诺奖和蛋白质研究领域的应用等 2. 人工智能发展历程:从图灵测试、早期的图灵机器人和 ELISA,到 IBM 的语音控制打印机、完全由人工智能创作的小说、微软的同声传译系统,再到 OpenAI 发布 ChatGPT 模型,经历了萌芽、积累沉淀到如今大模型和多模态模型百花齐放的阶段 3. 大模型的基石:由数据、算法、算力构成,算法有技术架构的迭代,如英伟达的显卡辅助模型训练,数据质量对生成理想的大模型至关重要 4. 针对弱智 8 的问题对大模型进行测试,开展让大模型回复问题并找出真人回复的活动,且国内大模型的回答能力有很大改进 5. 大语言模型的特点:早期回复缺乏情感,如今有所改进,后续将体验几个大模型的回复场景
2025-03-13
稍微技术点的科普书,机器学习一类的
以下为您推荐两本关于机器学习的科普书: 1. 《入门|机器学习研究者必知的八个神经网络架构》 神经网络是机器学习文献中的一类模型,受到生物神经网络的启发,目前深度神经网络效果很好,可应用于任何从输入到输出空间复杂映射的机器学习问题。 学习神经计算的三个理由:了解大脑工作原理、了解受神经元及其适应性连接启发的并行计算风格、使用受大脑启发的新颖学习算法解决实际问题。 一般来说,神经网络架构可分为三类:前馈神经网络(是实际应用中最常见的类型,若有多个隐藏层则称为“深度”神经网络)、循环网络(连接图中定向了循环,动态复杂,更具生物真实性)。 2. 《这是一份「不正经」的深度学习简述》 深度学习是使用不同类型神经网络的表征学习,通过优化网络的超参数来获得对数据的更好表征。 列举了几个经典案例,如反向传播(相关参考阅读:、A theoretical framework for BackPropagation——Yann Lecun:http://yann.lecun.com/exdb/publis/pdf/lecun88.pdf)、更好的初始化网络参数(初始化策略需根据所使用的激活函数选择)。
2025-02-25
怎么制作科普视频
制作科普视频可以参考以下步骤和方法: 一、想出点子 1. 最佳免费选项: 2. 付费选项:4.0,但由于与互联网连接,必应可能更好 3. 尽管(或者事实上,由于)它所有的限制和怪异,人工智能是产生想法的完美选择。您通常需要有很多想法才能有好的想法,而人工智能擅长数量。有了正确的提示,您也可以强迫它非常有创意。在创意模式下让 Bing 查找您最喜欢的、不寻常的想法生成技术,如 Brian Eno 的倾斜策略或 Mashall McLuhan 的四种策略,并应用它们。或者要求一些奇怪的东西,比如受随机专利启发的想法,或者您最喜欢的超级英雄。 二、制作视频 1. 最佳动画工具:用于在视频中为人脸制作动画的 2. 最佳语音克隆: 3. 现在,生成一个完全由人工智能生成的角色的视频,阅读完全由人工智能编写的脚本,用人工智能制作的声音说话,由人工智能制作动画,这简直是微不足道的。但要注意深度伪造是一个巨大的问题,这些系统需要合乎道德地使用。 4. 最近还发布了第一个商用文本到视频工具 Runway v2。它创建了 4 秒的短剪辑,更像是对未来发展的展示,但如果您想了解这个领域的未来发展,值得一看。 三、创作科普内容 1. 该场景对应的关键词库(13 个):目标用户、科普内容、生活问题、医疗类型、科普文章、病情症状、通俗性、专业名词、背景资质、权威领域、执业范围、证言人、内容形式。 2. 提问模板(3 个): 第一步,分析不同目标用户对于科普内容的需求(具体解决生活中的什么问题) 第二步,针对某一类人群所偏好的科普内容主题,进行内容撰写。 第三步,根据平台和内容形式进行改写。 四、用 AI 把小说做成视频 1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 请注意,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。
2025-02-18