以下是关于增量预训练的相关内容:
Atom 系列模型的预训练:
Atom 系列模型包含 Atom7B 和 Atom13B,基于 Llama2 做了中文能力的持续优化。
采用大规模的中文数据进行持续预训练,数据来源广泛,包括百科、书籍、博客、新闻、公告、小说、金融数据、法律数据、医疗数据、代码数据、专业论文数据、中文自然语言处理竞赛数据集等,并对数据进行过滤、打分、去重,筛选出超过 1T token 的高质量中文数据持续加入训练迭代。
针对 Llama2 模型的词表进行深度优化,扩展词库至 65,000 个单词,提高中文编码/解码速度约 350%,扩大中文字符集覆盖范围,包括所有 emoji 符号。
默认支持 4K 上下文,利用位置插值 PI 和 Neural Tangent Kernel(NTK)方法,经过微调可将上下文长度扩增到 32K。
GPT 助手的预训练:
GPT 以完全随机的权重开始,随着训练时间增长,输出会越来越连贯和一致。
预训练阶段占用了训练计算时间和浮点运算的 99%,是所有计算工作主要发生的地方。
收集大量数据,如 Common Crawl、C4、GitHub、维基百科、图书、ArXiv、StackExchange 等,按照一定比例采样形成训练集。
在训练前需进行预处理步骤 Tokenization(分词/标记化),将原始文本翻译成整数序列。
2025-01-10