Chat with Wiki - 怎么微调llama2

Answer

以下是关于微调 Llama2 的相关信息：

Meta 官方在 2023 年 8 月 24 日发布了 Code Llama，基于代码数据对 Llama2 进行了微调，提供三个不同功能的版本：基础模型（Code Llama）、Python 专用模型（Code Llama-Python）和指令跟随模型（Code Llama-Instruct），包含 7B、13B、34B 三种不同参数规模。不同模型能力区别如下： |模型类别|模型名称|代码续写|代码填充|指令编程| |-|-|-|-|-| |Code Llama|CodeLlama-7b|✅|✅|❌| ||CodeLlama-13b|✅|✅|❌| ||CodeLlama-34b|✅|❌|❌| |Code Llama-Python|CodeLlama-7b-Python|✅|❌|❌| ||CodeLlama-13b-Python|✅|❌|❌| ||CodeLlama-34b-Python|✅|❌|❌| |Code Llama-Instruct|CodeLlama-7b-Instruct|❌|✅|✅| ||CodeLlama-13b-Instruct|❌|✅|✅| ||CodeLlama-34b-Instruct|❌|❌|✅| 关于 Code Llama 的详细信息可以参考官方 Github 仓库 codellama：https://github.com/facebookresearch/codellama
基于中文指令数据集对 Llama2-Chat 模型进行了微调，使得 Llama2 模型有着更强的中文对话能力。LoRA 参数以及与基础模型合并的参数均已上传至 Hugging Face，目前包含 7B 和 13B 的模型。具体信息如下： |类别|模型名称|?模型加载名称|基础模型版本|下载地址| |-|-|-|-|-| |合并参数|Llama2-Chinese-7b-Chat|FlagAlpha/Llama2-Chinese-7b-Chat|meta-llama/Llama-2-7b-chat-hf|HuggingFace| |合并参数|Llama2-Chinese-13b-Chat|FlagAlpha/Llama2-Chinese-13b-Chat|meta-llama/Llama-2-13b-chat-hf|HuggingFace| |LoRA 参数|Llama2-Chinese-7b-Chat-LoRA|FlagAlpha/Llama2-Chinese-7b-Chat-LoRA|meta-llama/Llama-2-7b-chat-hf|HuggingFace| |LoRA 参数|Llama2-Chinese-13b-Chat-LoRA|FlagAlpha/Llama2-Chinese-13b-Chat-LoRA|meta-llama/Llama-2-13b-chat-hf|HuggingFace|
一旦有了基础模型，就进入计算成本相对较低的微调阶段。在这个阶段，编写标签说明，明确希望模型的表现，雇佣人员根据标签说明创建文档，例如收集 100,000 个高质量的理想问答对，根据这些数据微调基础模型。这个过程成本较低，可能只需要一天或类似的时间。然后进行大量评估，部署模型，并监控其表现，收集不当行为的实例，对不当行为进行纠正，将正确答案加入训练数据中，下次微调时模型会改进。这是一个迭代过程，公司通常在微调阶段更频繁地进行迭代。需要指出的是，例如 Llama2 系列，Meta 在发布时就包括了基础模型和助手模型。基础模型不能直接使用，助手模型可直接用于回答问题。

Content generated by AI large model, please carefully verify (powered by aily)

References

Meta官方在2023年8月24日发布了Code Llama，基于代码数据对Llama2进行了微调，提供三个不同功能的版本：基础模型（Code Llama）、Python专用模型（Code Llama-Python）和指令跟随模型（Code Llama-Instruct），包含7B、13B、34B三种不同参数规模。不同模型能力区别如下表所示：|模型类别|模型名称|代码续写|代码填充|指令编程||-|-|-|-|-||Code Llama|CodeLlama-7b|✅|✅|❌|||CodeLlama-13b|✅|✅|❌|||CodeLlama-34b|✅|❌|❌||Code Llama-Python|CodeLlama-7b-Python|✅|❌|❌|||CodeLlama-13b-Python|✅|❌|❌|||CodeLlama-34b-Python|✅|❌|❌||Code Llama-Instruct|CodeLlama-7b-Instruct|❌|✅|✅|||CodeLlama-13b-Instruct|❌|✅|✅|||CodeLlama-34b-Instruct|❌|❌|✅|关于Code Llama的详细信息可以参考官方Github仓库codellama：https://github.com/facebookresearch/codellama

Llama 介绍

基于中文指令数据集对Llama2-Chat模型进行了微调，使得Llama2模型有着更强的中文对话能力。LoRA参数以及与基础模型合并的参数均已上传至Hugging Face，目前包含7B和13B的模型。|类别|模型名称|?模型加载名称|基础模型版本|下载地址||-|-|-|-|-||合并参数|Llama2-Chinese-7b-Chat|FlagAlpha/Llama2-Chinese-7b-Chat|meta-llama/Llama-2-7b-chat-hf|[HuggingFace](https://huggingface.co/FlagAlpha/Llama2-Chinese-7b-Chat)||合并参数|Llama2-Chinese-13b-Chat|FlagAlpha/Llama2-Chinese-13b-Chat|meta-llama/Llama-2-13b-chat-hf|[HuggingFace](https://huggingface.co/FlagAlpha/Llama2-Chinese-13b-Chat)||LoRA参数|Llama2-Chinese-7b-Chat-LoRA|FlagAlpha/Llama2-Chinese-7b-Chat-LoRA|meta-llama/Llama-2-7b-chat-hf|[HuggingFace](https://huggingface.co/FlagAlpha/Llama2-Chinese-7b-Chat-LoRA)||LoRA参数|Llama2-Chinese-13b-Chat-LoRA|FlagAlpha/Llama2-Chinese-13b-Chat-LoRA|meta-llama/Llama-2-13b-chat-hf|[HuggingFace](https://huggingface.co/FlagAlpha/Llama2-Chinese-13b-Chat-LoRA)|[heading3]

文章：Andrej Karpathy 亲授：大语言模型入门

一旦你有了基础模型，你就进入了计算成本相对较低的微调阶段。在这个阶段，你会编写一些标签说明，明确指出你希望你的助手如何表现。然后你会雇佣人员，例如Scale.ai这样的公司，他们会根据你的标签说明实际创建文档。例如，你可能会收集100,000个高质量的理想问答对，然后根据这些数据微调基础模型。这个过程成本较低，可能只需要一天或类似的时间，而不是几个月。这样，你就得到了所谓的助手模型。然后你会进行大量评估，部署模型，并监控其表现，收集不当行为的实例。对于每一个不当行为，你都会希望对其进行纠正。然后你会返回到第一步并重复这个过程。简单来说，解决不当行为的方法是通过某种对话，助手给出了错误的响应。你接受这个错误响应，并要求某人提供正确的答案。然后，这个人会用正确的答案覆盖错误的响应，并将其作为示例加入到你的训练数据中。下次进行微调时，模型就会在这种情况下得到改进。这是一个迭代过程，由于微调的成本较低，你可以每周或每天进行这样的操作。通常，公司会在微调阶段而不是预训练阶段更频繁地进行迭代。需要指出的是，例如我提到的Llama2系列，Meta在发布时就包括了基础模型和助手模型。所以他们发布了这两种类型的模型。基础模型不能直接使用，因为它无法用答案回答问题。如果你向它提问，它只会给你更多问题，或者做类似的事情，因为它只是一个互联网文档采样器。这些模型并不是很有帮助。它们有用的地方在于Meta已经完成了非常昂贵的第一阶段，并给你提供了结果。这样你就可以开始进行自己的微调。这给了你很大的自由。但除此之外，Meta还发布了助手模型。因此，如果你只是想得到问题的答案，你可以使用助手模型，并且可以与之交谈。