摘要总结作为 llm 训练的下游任务,一般的训练流程是怎样的 作为 LLM 训练的下游任务,一般的训练流程如下:
1. 首先从大量文本数据中训练出一个基础 LLM。
2. 随后使用指令和良好尝试的输入和输出来对基础 LLM 进行微调和优化。
3. 接着通常使用称为“人类反馈强化学习”的技术进行进一步细化,以使系统更能够有帮助且能够遵循指令。
在训练过程中,会涉及到一些相关的理论探讨和评价指标:
理论探讨方面,如在推理阶段对 InContext Learning 能力的运行分析,将其视为隐式微调,通过前向计算生成元梯度并通过注意力机制执行梯度下降,且实验表明 LLM 中的某些注意力头能执行与任务相关的操作。
评价指标方面,entropylike 指标(如 crossentropy 指标)常用于表征模型的收敛情况和测试集的简单评估(如 Perplexity 指标),但对于复杂的下游应用,还需更多指标,如正确性(Accuracy)、信息检索任务中的 NDCG@K 指标、摘要任务中的 ROUGE 指标、文本生成任务中的 BitsperByte 指标、不确定性中的 ECE 指标、鲁棒性(包括 invariance 和 equivariance)、公平性、偏见程度和有毒性等。
2024-11-07