Chat with Wiki - WayToAGI

对于懂编程但不了解大模型的工程师，系统学习深度学习可以参考以下路径： 1. 掌握深度学习和自然语言处理基础：学习机器学习、深度学习、神经网络等基础理论。掌握自然语言处理基础，如词向量、序列模型、注意力机制等。相关课程推荐吴恩达的深度学习课程、斯坦福 cs224n 等。 2. 理解 Transformer 和 BERT 等模型原理：熟悉 Transformer 模型架构及自注意力机制原理。掌握 BERT 的预训练和微调方法。阅读相关论文，如 Attention is All You Need、BERT 论文等。 3. 学习 LLM 模型训练和微调：进行大规模文本语料预处理。熟悉 LLM 预训练框架，如 PyTorch、TensorFlow 等。学会微调 LLM 模型进行特定任务迁移。参考相关资源，如 HuggingFace 课程、论文及开源仓库等。 4. LLM 模型优化和部署：掌握模型压缩、蒸馏、并行等优化技术。了解模型评估和可解释性。熟悉模型服务化、在线推理、多语言支持等。运用相关开源工具，如 ONNX、TVM、BentoML 等。 5. LLM 工程实践和案例学习：结合行业场景，进行个性化的 LLM 训练。分析和优化具体 LLM 工程案例。研究 LLM 新模型、新方法的最新进展。 6. 持续跟踪前沿发展动态：关注顶会最新论文、技术博客等资源。此外，为了更好地理解相关技术原理和建立框架，还可以了解以下内容： 1. 概念：生成式 AI 生成的内容称为 AIGC。 2. 概念与关系： AI 即人工智能。机器学习是电脑找规律学习，包括监督学习、无监督学习、强化学习。监督学习使用有标签的训练数据，目标是学习输入和输出之间的映射关系，包括分类和回归。无监督学习的数据没有标签，算法自主发现规律，经典任务包括聚类。强化学习从反馈里学习，最大化奖励或最小化损失，类似训小狗。深度学习是一种参照人脑有神经网络和神经元的方法（因有很多层所以叫深度），神经网络可用于监督学习、无监督学习、强化学习。生成式 AI 可以生成文本、图片、音频、视频等内容形式。 LLM 是大语言模型，对于生成式 AI，生成图像的扩散模型不是大语言模型；对于大语言模型，生成只是其中一个处理任务，如谷歌的 BERT 模型，可用于语义理解（不擅长文本生成），如上下文理解、情感分析、文本分类。 3. 技术里程碑：2017 年 6 月，谷歌团队发表论文《Attention is All You Need》，首次提出了 Transformer 模型，它完全基于自注意力机制来处理序列数据，而不需要依赖于循环神经网络或卷积神经网络。