Chat with Wiki - ChatGPT如何训练需要的模型

Answer

ChatGPT 的训练模型主要包括以下几个方面：

预训练（Pre-train）阶段：建立模型的能力上限，如确定模型各方面能力的天花板。此阶段跟 GPT3 的方法近似，例如采用 decoder-only 的网络架构，有特定的模型大小、输入窗口大小、单词本大小，见过大量的 tokens，使用大量的原始训练文本。
监督微调（Supervised Fine-tune，SFT）阶段：让模型学会对话的形式展开，即知道如何按照对话的格式进行交流。
强化学习从人类反馈（Reinforcement Learning from Human Feedback，RLHF）阶段：细分为奖励模型（RM）阶段和强化学习（RL）阶段，能激发模型具备多种能力，包括安全性、推理能力和稳定性等。

训练方式主要是通过材料学习，不断形成模型。其本质功能是“单字接龙”，通过自回归生成的方式，将生成的下一个词与之前的上文组合，不断重复生成任意长的下文。训练的目的不是记忆，而是学习提问和回答的通用规律，实现举一反三，即泛化。学习材料用于调整模型，得到通用模型，以处理未被数据库记忆的情况。ChatGPT 不是搜索引擎的升级版，搜索引擎无法给出未被数据库记忆的信息，而 ChatGPT 作为生成模型可以创造不存在的文本，但可能存在混淆记忆、无法直接查看和更新所学、高度依赖学习材料以及缺乏及时性和准确性等缺点。

Content generated by AI large model, please carefully verify (powered by aily)

References

YoYo：小白 AI 初识知识点扫盲

它为什么叫做ChatGPT呢？先说GPT：Generative Pre-Training Transformer；Generative生成式，Pre-Training预训练。Transformer转换器示意图ChatGPT实质功能：本质是「单字接龙」，长文由单字接龙的回归所生成GPT作为大脑，也就是模型是需要训练的。训练方式是通过材料学习，不断的形成模型。eg.未学习前，胡乱生成，学习后，概率抽样生成，可以对比小朋友学习前后训练的目的不是记忆，是学习，“提问和回答的通用规律”学习后的模型，可以实现举一反三Chat Gpt并不是搜索引擎的升级版，材料学习作业时调整模型，生成模型；可以给出没有记忆中的内容，这也是出现“幻觉”的原因，对现实不存在的东西，出现合乎规律的捏造，通过提前训练才能生成想要的问答，这样的训练是为了让它学会「能举一反三的规律」缺点是可能混淆记忆，无法直接查看和更新所学，且高度依赖学习材料，也是缺乏及时性，准确性的原因

（3）ChatBot是怎么炼成的?

2022年11月，ChatGPT横空出世，背后基于GPT3.5。GPT3.5其实已经不是单纯的LLM基座模型了，据说它跟InstrcutGPT是同源技术，因此下面我们就以InstructGPT为参照介绍ChatBot是怎么炼成的。首先概览式地介绍一下训练ChatBot所需要的几个阶段，有个基本印象阶段0：PT阶段(Pre-train)。这个阶段建立模型的capacity，就是确定模型各方面能力的天花板阶段1：SFT阶段(Supervised Fine-tune)。这个阶段让模型学会conversational format，就是知道了对话应该按什么形式展开。阶段2：RLHF阶段(Reinforcement Learning from Human Feedback)。这个阶段细分为RM(Reward Model)阶段和RL(Reinforcement Learning)阶段，能激发出模型具备多种能力，包括但不限于safty、reasoning和stability我非常喜欢AK的[这张图](https://link.zhihu.com/?target=https%3A//www.youtube.com/watch%3Fv%3DbZQun8Y4L2A)，简单清晰把重要信息点都罗列了出来[heading3]Pre-Train阶段[content]预训练跟GPT3的方法近似，回顾一下重要信息，decoder-only的网络架构，模型大小175B，输入窗口大小2048，单词本大小50257，见过300B的tokens，原始训练文本45T，组成如下(真实ChatGPT只会比这个多)除了最大号的175B的GPT，InstructGPT中还训练1.3B和6B的模型以备不时之需

直播一期：知识库及 GPT 基础介绍

具体来说就是给他任意⻓的上文，他会用自己的模型去生成下一个词那他是怎么回答那些⻓内容的呢？答案是把它自己生成的下一个词，和之前的上文组合成新的上文，再让它生成下一个词，不断重复就可以生成任意⻓的下文。该过程也叫做自回归生成。上文：我爱下文：香菜？中国？原神？每一次的回答就像掷骰子或抽卡，训练模型可以让答案更接近用户想要的答案（当然提示词的撰写也非常重要，后面的直播会说到）[heading2]?大型模型的训练方式[heading3]Chat GPT??‍♀️搜索引擎[content]难道说要把所有的提问回答组合都给chat GPT t来做单字接⻰吗？其实不需要训练的主要目的不是记忆,而是学习以单字接⻰的方式来训练模型。不仅仅是为了让模型记住某个提问和回答,数据库已经将所有信息都记忆好了,直接搜索就可以得到回答非要训练单字接⻰,为的就是让模型学习提问和回答的通用规律。以便在遇到没记忆过的提问时，也能利用所学的规律生成用户想要的回答，这种举一反三的目的也叫做泛化。学习材料的作用只是调整模型，以得到通用模型，为的是能处理未被数据库记忆的情况因此chat GPT也被称为生成模型，生成模型与搜索引擎非常不同，搜索引擎无法给出没被数据库记忆的信息，但生成语言模型可以创造不存在的文本。