以下是关于预训练的相关内容:
Atom 系列模型的预训练:
Atom 系列模型包含 Atom7B 和 Atom13B,基于 Llama2 做了中文能力的持续优化。Atom 大模型在 Llama2 的基础上,采用大规模的中文数据进行持续预训练,数据来源广泛,包括百科、书籍、博客、新闻、公告、小说、金融数据、法律数据、医疗数据、代码数据、专业论文数据、中文自然语言处理竞赛数据集等。同时对庞大的数据进行了过滤、打分、去重,筛选出超过 1T token 的高质量中文数据,持续不断加入训练迭代中。为了提高中文文本处理的效率,针对 Llama2 模型的词表进行了深度优化,扩展词库至 65,000 个单词,提高了中文编码/解码速度约 350%,还扩大了中文字符集的覆盖范围,包括所有 emoji 符号。Atom 大模型默认支持 4K 上下文,利用位置插值 PI 和 Neural Tangent Kernel(NTK)方法,经过微调可以将上下文长度扩增到 32K。
GPT 助手的预训练:
预训练阶段是 GPT 训练中计算工作基本发生的地方,占用了训练计算时间和浮点运算的 99%。在这个阶段,需要收集大量的数据,如 Common Crawl、C4、GitHub、维基百科、图书、ArXiv、StackExchange 等,并按照一定比例采样形成训练集。在实际训练前,需要进行预处理步骤 Tokenization(分词/标记化),将原始文本翻译成整数序列。
OpenAI o1 的预训练:
GPT 4 等 LLM 模型训练一般由“预训练”和“后训练”两个阶段组成。“预训练”通过 Next Token Prediction 从海量数据吸收语言、世界知识、逻辑推理、代码等基础能力,模型规模越大、训练数据量越多,则模型能力越强。
2025-01-24