目前 ChatGPT 本身就是一个经过训练的模型,例如它是一个 RLHF 模型。但没有关于部署在 ChatGPT 上的英语外教模型的直接相关信息。
GPT 模型的训练方式包括强化学习等,如在 RLHF 流程中,根据奖励模型对完成项的评价来调整采样 token 的概率,最终得到可部署的模型。
ChatGPT 背后的模型具有特定的基本结构和众多可调节的参数,虽然参数数量(1750 亿个)相对于单词组合数量较少,但足以生成连贯的长文。
此外,API 由具有不同功能和价位的模型提供支持,如 GPT-4 是最新和最强大的模型,GPT-3.5-Turbo 是为 ChatGPT 提供支持的专为对话模式优化的模型。如需了解更多模型相关信息,可访问模型文档。
举个例子,(如上图)在第一行中,奖励模型认为这是一个得分相当高的完成项。因此,我们恰好在第一行中采样的所有token都将得到强化,他们在未来将得到更高的概率。相反,在第二行中,奖励模型非常不喜欢这个完成项,得到-1.2。因此,我们在第二行中采样的每一个token在未来都将得到稍微更低的概率。我们在许多提示,许多批次上反复做这个操作。基本上,我们得到了一个策略,这个策略在这里创建黄色的token,这基本上是所有的完成项,所有这些完成项都将根据我们在上一阶段训练的奖励模型得到高分。这就是我们训练的方式。这就是RLHF流程。然后最后,你会得到一个可以部署的模型。例如,ChatGPT就是一个RLHF模型,但是你可能会遇到一些其他的模型,比如说Vicuna-13B(俗称小羊驼模型)等,这些都是SFT模型。我们有基础模型、SFT模型和RLHF模型,这就是目前的状态。现在你可能会问为什么你会想做RLHF?答案可能并不那么激动人心,那就是它的效果更好。
然而,有些情况会出现问题。比如说这是我们使用a + b / x + c sin(x)最好的结果:需要理解的是,从来没有“没有(预设)模型的模型”。您使用的任何模型都具有某种特定的基本结构,然后有一定的“旋钮可以调节”(即您可以设置的权重)来适应您的数据。在ChatGPT的情况下,使用了许多这样的“旋钮”,实际上有1750亿个。然而ChatGPT背后的模型“只”需要这么多参数,就足以成为一个计算下一个单词概率“足够好”的模型,甚至可以为我们生成长达上千字的连贯文章。要知道,单词的三元组的数量就达到了60万亿,1000个单词的组合的数量(40000^1000)已经让很多“天文数字”(比如常用来比较的可观测宇宙的原子数)“自形惭秽“。相比之下,1750亿个参数确实微不足道。
API由一组具有不同功能和价位的模型提供支持。GPT-4是我们最新和最强大的模型。GPT-3.5-Turbo是为ChatGPT提供支持的模型,此模型专为对话模式进行了优化。要了解有关这些模型以及其他我们提供的内容的更多信息,请访问模型文档。