Chat with Wiki - 什么是微调

Answer

微调（Fine-tuning）是一种迁移学习技术，常用于深度学习中。

首先，有一个在大量数据上预训练过的模型，它已学会一些基本的模式和结构，例如在自然语言处理任务中学会基本的语法和单词的语义。

然后，在特定的任务数据上继续训练这个模型，使其适应新的任务。

以下是一些例子帮助您更好地理解：

情感分类：先使用大量语料库预训练模型，再用标注过的电影评论继续训练，使其学会判断评论的情感。
图像分类：类似的方式在图像相关任务中应用。

微调可带来诸多收益，如获得比即时设计更高质量的结果、能够训练比提示中更多的例子、由于更短的提示而节省 Token、更低的延迟请求。

GPT-3 在大量文本上预训练后，微调通过训练比提示中更多的示例来改进小样本学习，让您在大量任务中取得更好的结果。对模型进行微调涉及准备和上传训练数据、训练新的微调模型、使用微调模型等步骤。

在大型语言模型中，微调阶段是将互联网文档的格式转换为问答形式，类似于有用的助手。预训练阶段主要积累知识，微调阶段则是所谓的对齐。

Content generated by AI large model, please carefully verify (powered by aily)

References

什么是Fine-tuning

"Fine-tuning"，也叫做微调，是一种迁移学习技术，常用于深度学习中。这种方法的基本思路是：首先，我们有一个预训练的模型，这个模型已经在大量的数据上训练过，已经学会了一些基本的模式和结构（比如在自然语言处理任务中，预训练模型可能已经学会了基本的语法和单词的语义）。然后，我们再在特定的任务数据上继续训练这个模型，使其适应新的任务，这就是所谓的"fine-tuning"。下面是两个例子，希望能帮助你更好地理解这个概念：例子1：情感分类假设我们正在构建一个模型，用于判断电影评论是积极的还是消极的。我们可以先使用大量的语料库（比如维基百科）预训练一个模型，使其学会基本的语法和单词的语义。然后，我们收集一些标注过的电影评论，其中一部分评论是积极的，一部分评论是消极的。我们再在这些评论上继续训练模型，使其学会判断评论的情感。这就是一个fine-tuning的过程。例子2：图像分类

微调（Fine-tuning）

通过提供以下内容，微调可让您从API提供的模型中获得更多收益：1.比即时设计更高质量的结果2.能够训练比提示中更多的例子3.由于更短的提示而节省了Token4.更低的延迟请求GPT-3已经在来自开放互联网的大量文本上进行了预训练。当给出仅包含几个示例的提示时，它通常可以凭直觉判断出您要执行的任务并生成合理的完成。这通常称为“小样本学习”。微调通过训练比提示中更多的示例来改进小样本学习，让您在大量任务中取得更好的结果。对模型进行微调后，您将不再需要在提示中提供示例。这样可以节省成本并实现更低延迟的请求。在高层次上，微调涉及以下步骤：1.准备和上传训练数据2.训练新的微调模型3.使用您的微调模型

文章：Andrej Karpathy 亲授：大语言模型入门

因此，我们现在交换数据集，并根据这些问答文档进行训练。而这个过程就叫做微调。一旦你这样做了，你就获得了我们所说的助理模型。所以这个助理模型现在订阅了新的训练文档的形式。例如，如果你给它一个问题，比如，“你能帮我处理这段代码吗？好像有一个错误。print(“hello world).”尽管某个问题并未包含在训练集中，经过微调的模型仍然知道它应该以有助于解答此类问题的助手的形式进行回答，并且它能够做到这一点。因此，模型会从左至右、从上至下地逐字采样，生成的所有单词均是对该查询的响应。这些模型能够将其格式转变为当前有用的助手，这是一个值得关注的现象，同时也是一种基于经验的、尚未完全理解的现象。这是因为尽管它们在微调阶段已经接触到了大量相关文档，但它们仍能够访问并以某种方式利用在预训练阶段积累的全部知识。到目前为止的总结粗略来说，预训练阶段是在互联网上进行的大规模训练，主要关注知识的积累，而微调阶段则是关于所谓的对齐，即将互联网文档的格式转换为问答形式，类似于有用的助手。这两个阶段是获取像ChatGPT这样的模型的两个主要部分。