Chat with Wiki - 全量微调与少量参数微调

Answer

在参数规模的角度，大模型的微调主要分为全量微调（FFT，Full Fine Tuning）和少量参数微调（PEFT，Parameter-Efficient Fine Tuning）两条技术路线。

全量微调是对全量的模型参数进行全量的训练。全量参数微调脚本见：train/sft/finetune.sh，关于全量参数微调的具体实现代码见train/sft/finetune_clm.py。

少量参数微调则只对部分模型参数进行训练。从成本和效果的角度综合考虑，PEFT 是目前业界比较流行的微调方案。OpenAI 官方微调教程：https://github.com/openai/openai-cookbook/blob/main/examples/How_to_finetune_chat_models.ipynb

微调是在较小的、特定领域的数据集上继续 LLM 的训练过程，通过调整模型本身的参数，而不是像提示工程和 RAG 那样仅仅更改提示，来大幅提高模型在特定任务中的性能。把微调想象成把通用工具打磨成精密仪器。

微调有两大好处：

提高模型在特定任务中的性能。微调意味着可以输入更多的示例。可以在数以百万计的代币上进行微调，而少量学习提示仅限于数以万计的代币。经过微调的模型可能会失去一些通用性，但对于其特定任务而言，应该期待它有更好的表现。
提高模型效率。LLM 应用程序的效率意味着更低的延迟和更低的成本。实现这一优势有两种方法。通过专门化模型，可以使用更小的模型。此外，由于只对输入输出对进行训练，而不是对完整的提示及其任何提示工程技巧和提示进行训练，因此可以舍弃示例或指令。这可以进一步改善延迟和成本。

在微调中，超参数的选择也很重要。我们选择了适用于一系列用例的默认超参数，唯一需要的参数是训练文件。但调整用于微调的超参数通常可以产生产生更高质量输出的模型。特别是，可能需要配置以下内容：

model：要微调的基本模型的名称。可以选择“ada”、“babbage”、“curie”或“davinci”之一。要了解有关这些模型的更多信息，请参阅模型文档。
n_epochs - 默认为 4。训练模型的时期数。一个纪元指的是训练数据集的一个完整周期。
batch_size - 默认为训练集中示例数量的 0.2%，上限为 256。批量大小是用于训练单个正向和反向传递的训练示例数。总的来说，我们发现更大的批次大小往往更适用于更大的数据集。
learning_rate_multiplier - 默认为 0.05、0.1 或 0.2，具体取决于 final batch_size。微调学习率是用于预训练的原始学习率乘以该乘数。建议使用 0.02 到 0.2 范围内的值进行试验，以查看产生最佳结果的值。根据经验，我们发现较大的学习率通常在较大的批量大小下表现更好。
compute_classification_metrics - 默认为假。如果为 True，为了对分类任务进行微调，在每个 epoch 结束时在验证集上计算特定于分类的指标（准确性、F-1 分数等）。要配置这些额外的超参数，请通过 OpenAI CLI 上的命令行标志传递它们。

LoRA 微调脚本见：train/sft/finetune_lora.sh，关于 LoRA 微调的具体实现代码见train/sft/finetune_clm_lora.py，单机多卡的微调可以通过修改脚本中的--include localhost:0 来实现。基于 LoRA 微调的模型参数见：基于 Llama2 的中文微调模型，LoRA 参数需要和基础模型参数结合使用。通过PEFT加载预训练模型参数和微调模型参数，以下示例代码中，base_model_name_or_path 为预训练模型参数保存路径，finetune_model_path 为微调模型参数保存路径。对于全量参数微调的模型，调用方式同模型调用代码示例，只需要修改其中的模型名称或者保存路径即可。

Content generated by AI large model, please carefully verify (powered by aily)

References

3. 如何让 LLM 应用性能登峰造极

参数规模的角度，大模型的微调分成两条技术路线：全量微调FFT(Full Fine Tuning)：对全量的模型参数，进行全量的训练。PEFT(Parameter-Efficient Fine Tuning)：只对部分模型参数进行训练。从成本和效果的角度综合考虑，PEFT是目前业界比较流行的微调方案。OpenAI官方微调教程：[https://github.com/openai/openai-cookbook/blob/main/examples/How_to_finetune_chat_models.ipynb](https://github.com/openai/openai-cookbook/blob/main/examples/How_to_finetune_chat_models.ipynb)微调是在较小的、特定领域的数据集上继续LLM的训练过程。这可以通过调整模型本身的参数，而不是像提示工程和RAG那样仅仅更改提示，来大幅提高模型在特定任务中的性能。把微调想象成把通用工具打磨成精密仪器。微调有两大好处：提高模型在特定任务中的性能。微调意味着你可以输入更多的示例。您可以在数以百万计的代币上进行微调，而根据上下文的大小，少量学习提示仅限于数以万计的代币。经过微调的模型可能会失去一些通用性，但对于其特定任务而言，您应该期待它有更好的表现。提高模型效率。LLM应用程序的效率意味着更低的延迟和更低的成本。实现这一优势有两种方法。通过专门化模型，您可以使用更小的模型。此外，由于只对输入输出对进行训练，而不是对完整的提示及其任何提示工程技巧和提示进行训练，因此可以舍弃示例或指令。这可以进一步改善延迟和成本。

模型微调

LoRA微调脚本见：[train/sft/finetune_lora.sh](https://github.com/LlamaFamily/Llama-Chinese/blob/main/requirements.txt)，关于LoRA微调的具体实现代码见[train/sft/finetune_clm_lora.py](https://github.com/LlamaFamily/Llama-Chinese/blob/main/train/sft/finetune_clm_lora.py)，单机多卡的微调可以通过修改脚本中的--include localhost:0来实现。[heading6]全量参数微调[content]全量参数微调脚本见：[train/sft/finetune.sh](https://github.com/LlamaFamily/Llama-Chinese/blob/main/train/sft/finetune.sh)，关于全量参数微调的具体实现代码见[train/sft/finetune_clm.py](https://github.com/LlamaFamily/Llama-Chinese/blob/main/train/sft/finetune_clm.py)。[heading5]Step4:加载微调模型[heading6]LoRA微调[content]基于LoRA微调的模型参数见：基于Llama2的中文微调模型，LoRA参数需要和基础模型参数结合使用。通过[PEFT](https://github.com/huggingface/peft)加载预训练模型参数和微调模型参数，以下示例代码中，base_model_name_or_path为预训练模型参数保存路径，finetune_model_path为微调模型参数保存路径。[heading6]全量参数微调[content]对于全量参数微调的模型，调用方式同模型调用代码示例，只需要修改其中的模型名称或者保存路径即可。

微调（Fine-tuning）

我们选择了适用于一系列用例的默认超参数。唯一需要的参数是训练文件。也就是说，调整用于微调的超参数通常可以产生产生更高质量输出的模型。特别是，您可能需要配置以下内容：model：要微调的基本模型的名称。您可以选择“ada”、“babbage”、“curie”或“davinci”之一。要了解有关这些模型的更多信息，请参阅[模型](https://ywh1bkansf.feishu.cn/wiki/R70MwasSpik2tgkCr7dc9eTmn0o)文档。n_epochs-默认为4。训练模型的时期数。一个纪元指的是训练数据集的一个完整周期。batch_size-默认为训练集中示例数量的0.2%，上限为256。批量大小是用于训练单个正向和反向传递的训练示例数。总的来说，我们发现更大的批次大小往往更适用于更大的数据集。learning_rate_multiplier-默认为0.05、0.1或0.2，具体取决于final batch_size。微调学习率是用于预训练的原始学习率乘以该乘数。我们建议使用0.02到0.2范围内的值进行试验，以查看产生最佳结果的值。根据经验，我们发现较大的学习率通常在较大的批量大小下表现更好。compute_classification_metrics-默认为假。如果为True，为了对分类任务进行微调，在每个epoch结束时在验证集上计算特定于分类的指标（准确性、F-1分数等）。要配置这些额外的超参数，请通过OpenAI CLI上的命令行标志传递它们，例如：