Chat with Wiki - deepseek如何处理图片

Answer

DeepSeek 的 Janus-Pro 模型将图像理解和生成统一在一个模型中，具有以下特点和处理方式：

统一 Transformer 架构：使用同一个模型就能完成图片理解和生成。
规模和开源：提供 1B 和 7B 两种规模，全面开源，支持商用，采用 MIT 协议，部署使用便捷。
能力表现：Benchmark 表现优异，能力更全面，7B 版本在 GenEval 和 DPG-Bench 中击败 OpenAI 的 DALL-E 3 和 Stable Diffusion。
处理方式：
- 理解模式：用“超级眼镜”(SigLIP-L)仔细看最大 384x384 大小的图片，还能读文字。
- 画画模式：用“魔法画笔”(校正流+SDXL-VAE)自己创作同样大小的图片。
- 训练方法：先自己看很多图画书学习（预训练），然后老师手把手教（监督微调），最后用“精华浓缩法”(EMA)保存最好的学习成果。
- Transformer 大一统架构：
  - 理解部分：输入包括一张“Clean Image”（干净图像）和“Und.Prompt”（理解提示），经过处理后由大语言模型输出，再通过“Text De-Tokenizer”（文本去标记器）处理得到响应。
  - 生成部分：输入包括“Gen.Prompt”（生成提示）和一张“Noisy Image”（含噪图像），经过处理后在“Gen.Decoder”（生成解码器）中不断更新，最终完成图像生成。

模型地址：

模型（7B）：https://huggingface.co/deepseek-ai/Janus-Pro-7B
模型（1B）：https://huggingface.co/deepseek-ai/Janus-Pro-1B

下载地址：https://github.com/deepseek-ai/Janus

Content generated by AI large model, please carefully verify (powered by aily)

References

DeepSeek深夜发布大一统模型 Janus-Pro将图像理解和生成统一在一个模型中

LLM看这里：[详解：DeepSeek深度推理+联网搜索目前断档第一](https://waytoagi.feishu.cn/wiki/D9McwUWtQiFh9sksz4ccmn4Dneg)关键点：1.统一Transformer架构，使用同一个模型就能完成图片理解，图片生成2.提供1B和7B两种规模，适配多元应用场景3.全面开源，支持商用，MIT协议，部署使用便捷4.Benchmark表现优异，能力更全面（上一个是智源开源的Emu3模型（7B）：https://huggingface.co/deepseek-ai/Janus-Pro-7B模型（1B）：https://huggingface.co/deepseek-ai/Janus-Pro-1B官方解释：Janus-Pro是一种新型的自回归框架，它统一了多模态理解和生成。它通过将视觉编码解耦为独立的路径来解决先前方法的局限性，同时仍然利用单一的统一Transformer架构进行处理。解耦不仅缓解了视觉编码器在理解和生成中的角色冲突，还增强了框架的灵活性。Janus-Pro超越了之前的统一模型，并匹配或超过了特定任务模型的性能。Janus-Pro的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。下载地址：https://github.com/deepseek-ai/Janus

DeepSeek深夜发布大一统模型 Janus-Pro将图像理解和生成统一在一个模型中

通俗解释：JanusFlow就像一个会"看图画+编故事+自己画画"的聪明机器人?1.两个超能力：它有两种本领?理解模式：用"超级眼镜"(SigLIP-L)仔细看图片（最大384x384大小），还能读文字✏️画画模式：用"魔法画笔"(校正流+SDXL-VAE)自己创作同样大小的图片2.聪明的大脑：它的核心是DeepSeek语言模型（相当于一个特别会编故事的AI），已经学习过很多知识3.特别训练法：先自己看很多图画书学习（预训练）然后老师手把手教它（监督微调）最后用"精华浓缩法"(EMA)保存最好的学习成果解释：为什么用Transformer大一统模型，不用Diffusion模型扩散模型（Diffusion Models）在图像生成上质量更高，但Janus-Pro的设计目标不同：任务导向：Janus-Pro追求多任务统一（理解+生成），而扩散模型更专注生成质量。效率考量：扩散模型需要多次迭代去噪（如Stable Diffusion约20步），而自回归生成可能更实时。架构简洁性：保持单一Transformer架构，降低训练和部署成本。好处：统一Transformer架构：一个大脑，两种思维架构本质：虽然视觉处理分两条路，但后续处理仍用同一个Transformer（类似人脑不同区域处理不同信息）。关键设计：参数共享：底层Transformer同时学习理解和生成任务，促进知识迁移（例如学会「猫」的概念后，生成时自然能画猫）。注意力机制：通过跨模态注意力（如文字关注图像区域），实现图文深度对齐。灵活性：可通过调整输入（如切换理解/生成路径的Token）快速切换任务模式，无需重新训练模型

DeepSeek深夜发布大一统模型 Janus-Pro将图像理解和生成统一在一个模型中

一个模型生成，左侧（a）理解部分，右侧（b）生成部分[heading4]理解部分（a）：自回归（Autoregressive）[content]1.输入：左侧有一张“Clean Image”（干净图像），通过“Und.Encoder”（理解编码器）进行编码处理。同时，还有“Und.Prompt”（理解提示）通过“Text Tokenizer”（文本标记器）进行标记化处理。2.处理：经过上述处理的图像和文本信息进入“Large Language Model”（大语言模型）。3.输出：大语言模型的输出通过“Text De-Tokenizer”（文本去标记器）处理，得到“Response(Next Token Prediction)”（响应，即下一个标记预测）。[heading4]生成部分（b）：修正流（Rectified Flow）[content]1.输入：“Gen.Prompt”（生成提示）通过“Text Tokenizer”（文本标记器）进行标记化处理，然后进入“Large Language Model”（大语言模型）。同时，有一张“Noisy Image”（含噪图像）通过“Gen.Encoder”（生成编码器）处理。2.处理：大语言模型的输出与含噪图像经编码器处理后的信息，在“Gen.Decoder”（生成解码器）中处理，得到“Velocity(All Image Tokens)”（速度，即所有图像标记）。根据公式对进行更新，用覆盖。3.输出：通过不断重复上述更新过程，直到，最终完成图像生成相关操作。[Github Repository GitHub仓库](https://github.com/deepseek-ai/Janus)新模型Janus-Pro，其中7B版本在GenEval和DPG-Bench（）中击败OpenAI的DALL-E 3和Stable Diffusion