与知识库对话 - 本地部署Deepseek如何微调呢

回答

对于本地部署 DeepSeek 的微调，以下是一些相关信息：

对于企业级部署，首先要根据实际业务场景评估所需部署的模型规格以及所需的服务器资源，预估完服务器资源后，还需评估业务场景是否需要二次开发模型。如果只是简单微调模型就能符合业务需求，使用 Ollama、LM Studio、GTP4All 或许可以满足诉求；若需要定制化开发模型，则要考虑进行模型的原生部署。
关于微调的方法，LoRA/QLoRA 论文指出其是对模型进行廉价微调的可行方法，如 LoRA/QLoRA，相关论文可下载：LoRA Low-Rank Adaptation of Large Language Models.pdf 、QLoRA Efficient Finetuning of Quantized LLMs.pdf 。
另外，DeepSeek 模型如 Janus-Pro 有特别的训练法，先进行预训练，然后老师手把手教（监督微调），最后用“精华浓缩法”(EMA)保存最好的学习成果。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

对于个人开发者或尝鲜者而言，本地想要部署DeepSeek有很多种方案，但是一旦涉及到企业级部署，则步骤将会繁琐很多。比如我们的第一步就需要先根据实际业务场景评估出我们到底需要部署什么规格的模型，以及我们所要部署的模型，到底需要多少服务器资源来进行承接，也就是资源预估先行。预估完我们的服务器资源以后，还需要评估我们的业务场景是否需要二次开发模型。如果只是简单的微调模型就可以符合我们的业务需求，那么使用Ollama、LM Studio、GTP4All或许就可以满足我们的诉求。但是如果需要对模型进行定制化开发，则需要考虑进行模型的原生部署。所以本篇文章主要解决四个问题：1.如何合理评估我们的服务器资源2.Ollama部署指定版本的DeepSeek3.原生部署DeepSeek4.搭建Dify构建企业内的私有知识库、工作流

GPT1到Deepseek R1所有公开论文The 2025 AI Engineer Reading List

1.[LoRA](https://ar5iv.labs.arxiv.org/html/2106.09685?_immersive_translate_auto_translate=1)/[QLoRA](https://ar5iv.labs.arxiv.org/html/2305.14314?_immersive_translate_auto_translate=1)paper-the de facto way to finetune models cheaply,whether on local models or with 4o([confirmed on pod](https://www.latent.space/p/cosine)).[FSDP+QLoRA](https://www.answer.ai/posts/2024-03-06-fsdp-qlora.html)is educational.LoRA/QLoRA论文——无论是在本地模型上还是使用4o（已在播客中确认），都是对模型进行廉价微调的可行方法。FSDP+QLoRA具有教育意义。[LoRA Low-Rank Adaptation of Large Language Models.pdf](https://bytedance.feishu.cn/space/api/box/stream/download/all/Ts9gbLifLoa6Z4xvuEPcVnJCn1f?allow_redirect=1)[QLoRA Efficient Finetuning of Quantized LLMs.pdf](https://bytedance.feishu.cn/space/api/box/stream/download/all/KlhRbwg4goXNzexyvgEczqD6nke?allow_redirect=1)

DeepSeek深夜发布大一统模型 Janus-Pro将图像理解和生成统一在一个模型中

通俗解释：JanusFlow就像一个会"看图画+编故事+自己画画"的聪明机器人?1.两个超能力：它有两种本领?理解模式：用"超级眼镜"(SigLIP-L)仔细看图片（最大384x384大小），还能读文字✏️画画模式：用"魔法画笔"(校正流+SDXL-VAE)自己创作同样大小的图片2.聪明的大脑：它的核心是DeepSeek语言模型（相当于一个特别会编故事的AI），已经学习过很多知识3.特别训练法：先自己看很多图画书学习（预训练）然后老师手把手教它（监督微调）最后用"精华浓缩法"(EMA)保存最好的学习成果解释：为什么用Transformer大一统模型，不用Diffusion模型扩散模型（Diffusion Models）在图像生成上质量更高，但Janus-Pro的设计目标不同：任务导向：Janus-Pro追求多任务统一（理解+生成），而扩散模型更专注生成质量。效率考量：扩散模型需要多次迭代去噪（如Stable Diffusion约20步），而自回归生成可能更实时。架构简洁性：保持单一Transformer架构，降低训练和部署成本。好处：统一Transformer架构：一个大脑，两种思维架构本质：虽然视觉处理分两条路，但后续处理仍用同一个Transformer（类似人脑不同区域处理不同信息）。关键设计：参数共享：底层Transformer同时学习理解和生成任务，促进知识迁移（例如学会「猫」的概念后，生成时自然能画猫）。注意力机制：通过跨模态注意力（如文字关注图像区域），实现图文深度对齐。灵活性：可通过调整输入（如切换理解/生成路径的Token）快速切换任务模式，无需重新训练模型