Chat with Wiki - 有没有部署在chatgpt上的英语外教模型

Answer

目前 ChatGPT 本身就是一个经过训练的模型，例如它是一个 RLHF 模型。但没有关于部署在 ChatGPT 上的英语外教模型的直接相关信息。

GPT 模型的训练方式包括强化学习等，如在 RLHF 流程中，根据奖励模型对完成项的评价来调整采样 token 的概率，最终得到可部署的模型。

ChatGPT 背后的模型具有特定的基本结构和众多可调节的参数，虽然参数数量（1750 亿个）相对于单词组合数量较少，但足以生成连贯的长文。

此外，API 由具有不同功能和价位的模型提供支持，如 GPT-4 是最新和最强大的模型，GPT-3.5-Turbo 是为 ChatGPT 提供支持的专为对话模式优化的模型。如需了解更多模型相关信息，可访问模型文档。

Content generated by AI large model, please carefully verify (powered by aily)

References

举个例子，（如上图）在第一行中，奖励模型认为这是一个得分相当高的完成项。因此，我们恰好在第一行中采样的所有token都将得到强化，他们在未来将得到更高的概率。相反，在第二行中，奖励模型非常不喜欢这个完成项，得到-1.2。因此，我们在第二行中采样的每一个token在未来都将得到稍微更低的概率。我们在许多提示，许多批次上反复做这个操作。基本上，我们得到了一个策略，这个策略在这里创建黄色的token，这基本上是所有的完成项，所有这些完成项都将根据我们在上一阶段训练的奖励模型得到高分。这就是我们训练的方式。这就是RLHF流程。然后最后，你会得到一个可以部署的模型。例如，ChatGPT就是一个RLHF模型，但是你可能会遇到一些其他的模型，比如说Vicuna-13B（俗称小羊驼模型）等，这些都是SFT模型。我们有基础模型、SFT模型和RLHF模型，这就是目前的状态。现在你可能会问为什么你会想做RLHF？答案可能并不那么激动人心，那就是它的效果更好。

ChatGPT 是在做什么，为什么它有效？

然而，有些情况会出现问题。比如说这是我们使用a + b / x + c sin（x）最好的结果：需要理解的是，从来没有“没有（预设）模型的模型”。您使用的任何模型都具有某种特定的基本结构，然后有一定的“旋钮可以调节”（即您可以设置的权重）来适应您的数据。在ChatGPT的情况下，使用了许多这样的“旋钮”，实际上有1750亿个。然而ChatGPT背后的模型“只”需要这么多参数，就足以成为一个计算下一个单词概率“足够好”的模型，甚至可以为我们生成长达上千字的连贯文章。要知道，单词的三元组的数量就达到了60万亿，1000个单词的组合的数量（40000^1000）已经让很多“天文数字”（比如常用来比较的可观测宇宙的原子数）“自形惭秽“。相比之下，1750亿个参数确实微不足道。

快速开始

API由一组具有不同功能和价位的模型提供支持。GPT-4是我们最新和最强大的模型。GPT-3.5-Turbo是为ChatGPT提供支持的模型，此模型专为对话模式进行了优化。要了解有关这些模型以及其他我们提供的内容的更多信息，请访问模型文档。