以下是关于微调 Llama2 的相关信息:
Meta 官方在 2023 年 8 月 24 日发布了 Code Llama,基于代码数据对 Llama2 进行了微调,提供三个不同功能的版本:基础模型(Code Llama)、Python 专用模型(Code LlamaPython)和指令跟随模型(Code LlamaInstruct),包含 7B、13B、34B 三种不同参数规模。不同模型能力区别如下:
|模型类别|模型名称|代码续写|代码填充|指令编程|
||||||
|Code Llama|CodeLlama7b|✅|✅|❌|
||CodeLlama13b|✅|✅|❌|
||CodeLlama34b|✅|❌|❌|
|Code LlamaPython|CodeLlama7bPython|✅|❌|❌|
||CodeLlama13bPython|✅|❌|❌|
||CodeLlama34bPython|✅|❌|❌|
|Code LlamaInstruct|CodeLlama7bInstruct|❌|✅|✅|
||CodeLlama13bInstruct|❌|✅|✅|
||CodeLlama34bInstruct|❌|❌|✅|
关于 Code Llama 的详细信息可以参考官方 Github 仓库 codellama:https://github.com/facebookresearch/codellama
基于中文指令数据集对 Llama2Chat 模型进行了微调,使得 Llama2 模型有着更强的中文对话能力。LoRA 参数以及与基础模型合并的参数均已上传至 Hugging Face,目前包含 7B 和 13B 的模型。具体信息如下:
|类别|模型名称|?模型加载名称|基础模型版本|下载地址|
||||||
|合并参数|Llama2Chinese7bChat|FlagAlpha/Llama2Chinese7bChat|metallama/Llama27bchathf||
|合并参数|Llama2Chinese13bChat|FlagAlpha/Llama2Chinese13bChat|metallama/Llama213bchathf||
|LoRA 参数|Llama2Chinese7bChatLoRA|FlagAlpha/Llama2Chinese7bChatLoRA|metallama/Llama27bchathf||
|LoRA 参数|Llama2Chinese13bChatLoRA|FlagAlpha/Llama2Chinese13bChatLoRA|metallama/Llama213bchathf||
一旦有了基础模型,就进入计算成本相对较低的微调阶段。在这个阶段,编写标签说明,明确希望模型的表现,雇佣人员根据标签说明创建文档,例如收集 100,000 个高质量的理想问答对,根据这些数据微调基础模型。这个过程成本较低,可能只需要一天或类似的时间。然后进行大量评估,部署模型,并监控其表现,收集不当行为的实例,对不当行为进行纠正,将正确答案加入训练数据中,下次微调时模型会改进。这是一个迭代过程,公司通常在微调阶段更频繁地进行迭代。
需要指出的是,例如 Llama2 系列,Meta 在发布时就包括了基础模型和助手模型。基础模型不能直接使用,助手模型可直接用于回答问题。
2024-12-23