Chat with Wiki - deepseek 私有化训练

Answer

以下是关于 DeepSeek 私有化训练的相关信息：

模型测试、问题探讨与新模型部署过程：

探讨了模型存在幻觉、答案有概率性等问题，并对比了加提示词前后的情况。
准备从 32B 蒸馏新模型，提及该模型的资源需求及阿里云拍卖机制。
介绍了启动 DSW 获取廉价 CPU 资源，以及部署模型时因库存不足不断加价的过程。

派平台大模型训练与微调实操讲解：

许键分享了抢硬件资源的方法，演示了通过提问蒸馏标注数据。
讲解了在派平台训练模型的流程，包括参数设置、数据集上传等，并展示了训练效果和日志查看。
说明了训练好的模型部署方法，强调训出满意模型需要大量基础知识学习。

模型蒸馏微调演示、平台介绍与问题解答：

许键展示了模型微调后的效果，如幻觉下降等。
介绍了阿里云解决方案，对比了百炼和派平台的差异。
进行了 Q&A，回答了无监督学习微调、训练数据资源、多模态训练标注、Python 代码报错等问题，提及派平台有公用数据集，还举例说明了多模态标注方式。

总结：

本地部署介绍：讲解了如果拥有云服务器如何进行本地部署，以及满血版本地部署的实际情况。
免费额度说明：在 freely.aliyun.com 可领取 500 元免费额度，但有使用限制，不能部署满血版和较大的增流模型。
平台服务差异：介绍了 DLC、DSW 和 EAS 等模型部署平台服务的差别。
模型蒸馏微调：会带着大家复现模型的蒸馏和微调，并讲解相关知识。
Deepseek R1 模型的制作及相关模型比较：
- R1 模型的强化学习：通过强化学习，在训练过程中给予模型反馈，对正确路线增强权重，使做对的概率变高，导致思考逻辑变长。
- R1 模型的蒸馏与微调：用 Deepseek RE Zero 蒸馏出带思考的数据，基于 Deepseek V3 微调，进行冷启动，再做强化学习，还从非公布模型提取微调数据，加上人类偏好，最终形成 R1。
- R1 与其他模型的差别：R1 是原生通过强化学习训练出的模型，蒸馏模型是基于数据微调出来的，基础模型能力强，蒸馏微调模型能力也会强。
- 模型的相互帮助：Deepseek R1 反过来蒸馏数据微调 V3，形成互相帮助的局面，使两个模型都更强。

智能章节：

许键介绍今日课程重点是云服务器上如何使用 Deepseek R1 及本地部署相关内容，提及派平台免费额度及适用模型。还介绍了自己和社区情况。接着讲解 Deepseek R1 制作过程，包括强化学习概念及示例，阐述其从 Deepseek r e Zero 到 M2 等模型的演变及原理。
主要介绍了 Deepseek R1 模型的构建过程，包括多轮强化学习和微调，还提及蒸馏模型的情况。探讨了不同模型部署所需的显存、内存及成本，对比了各模型在专业领域的能力表现。
介绍了以云基础设施和 GPU 算力资源为底层的派平台。该平台搭建 AI 框架并做优化，提供一键式快捷部署工具等。与百炼不同，它开放更多自由度，租户数据隔离。很多大模型在此训练，支持多机分布式部署等，既面向企业，也适合个人创业者，不同应用定价有差异。

Content generated by AI large model, please carefully verify (powered by aily)

References

智能纪要：02-26 | DeepSeek部署+蒸馏 2025年2月26日

[01:26:40](https://waytoagi.feishu.cn/minutes/obcnyb5s158h8yi8alo4ibvl?t=5200000)模型测试、问题探讨与新模型部署过程分享本章节主要围绕模型展开讨论。先探讨模型存在幻觉、答案有概率性等问题，对比加提示词前后情况。之后讲述停止当前模型，准备从32B蒸馏新模型，提及该模型资源需求及阿里云拍卖机制。期间还介绍启动DSW获取廉价CPU资源，以及部署模型时因库存不足不断加价的过程。[01:36:44](https://waytoagi.feishu.cn/minutes/obcnyb5s158h8yi8alo4ibvl?t=5804000)派平台大模型训练与微调实操讲解本章节许键分享模型训练相关操作。介绍抢硬件资源方法，演示通过提问蒸馏标注数据。还讲解在派平台训练模型流程，包括参数设置、数据集上传等，展示训练效果、日志查看。最后说明训练好的模型部署方法，强调虽按教程操作有帮助，但训出满意模型需大量基础知识学习。[02:01:41](https://waytoagi.feishu.cn/minutes/obcnyb5s158h8yi8alo4ibvl?t=7301000)模型蒸馏微调演示、平台介绍与问题解答本章节许键先展示模型微调后的效果，如幻觉下降等。接着介绍阿里云解决方案，对比百炼和派平台差异。之后进入Q&A，回答无监督学习微调、训练数据资源、多模态训练标注、Python代码报错等问题，提及派平台有公用数据集，还举例说明多模态标注方式。

智能纪要：02-26 | DeepSeek部署+蒸馏 2025年2月26日

关于AI模型部署与相关知识的讲解本地部署介绍：讲解了如果拥有云服务器如何进行本地部署，以及满血版本地部署的实际情况。免费额度说明：指出在freely.aliyun.com可领取500元免费额度，但有使用限制，不能部署满血版和较大的增流模型。平台服务差异：介绍了DLC、DSW和EAS等模型部署平台服务的差别。模型蒸馏微调：会带着大家复现模型的蒸馏和微调，并讲解相关知识。Deepseek R1模型的制作及相关模型比较R1模型的强化学习：通过强化学习，在训练过程中给予模型反馈，如路线规划是否成功到达终点、输出格式是否符合期望等，对正确路线增强权重，使做对的概率变高，导致思考逻辑变长。R1模型的蒸馏与微调：用Deepseek RE Zero蒸馏出带思考的数据，基于Deepseek V3微调，进行冷启动，再做强化学习，还从非公布模型提取微调数据，加上人类偏好，最终形成R1。R1与其他模型的差别：R1是原生通过强化学习训练出的模型，蒸馏模型是基于数据微调出来的，基础模型能力强，蒸馏微调模型能力也会强。模型的相互帮助：Deepseek R1反过来蒸馏数据微调V3，形成互相帮助的局面，使两个模型都更强。

智能纪要：02-26 | DeepSeek部署+蒸馏 2025年2月26日

[00:00](https://waytoagi.feishu.cn/minutes/obcnyb5s158h8yi8alo4ibvl?t=0)Deepseek R1本地部署、蒸馏及训练原理讲解本章节许键介绍今日课程重点是云服务器上如何使用Deepseek R1及本地部署相关内容，提及派平台免费额度及适用模型。还介绍了自己和社区情况。接着讲解Deepseek R1制作过程，包括强化学习概念及示例，阐述其从Deepseek r e Zero到M2等模型的演变及原理。[18:08](https://waytoagi.feishu.cn/minutes/obcnyb5s158h8yi8alo4ibvl?t=1088000)Deepseek R1模型的技术原理、部署与性能分析本章节主要介绍了Deepseek R1模型的构建过程，包括多轮强化学习和微调，还提及蒸馏模型的情况。探讨了不同模型部署所需的显存、内存及成本，对比了各模型在专业领域的能力表现。最后提到大家期望用Deepseek抢跑企业应用，阿里云派平台可助力其战略落地，并展示了派平台全景图。[37:57](https://waytoagi.feishu.cn/minutes/obcnyb5s158h8yi8alo4ibvl?t=2277000)阿里云派平台：面向企业的AI计算资源与模型部署服务介绍本章节介绍了以云基础设施和GPU算力资源为底层的派平台。该平台搭建AI框架并做优化，提供一键式快捷部署工具等。与百炼不同，它开放更多自由度，租户数据隔离。很多大模型在此训练，支持多机分布式部署等，既面向企业，也适合个人创业者，不同应用定价有差异。