Chat with Wiki - Janus-Pro

Answer

Janus-Pro 是 DeepSeek 深夜发布的大一统模型，它将图像理解和生成统一在一个模型中。

其具有以下特点和优势：

拥有两种超能力：
- 理解模式：使用“超级眼镜”（SigLIP-L）仔细查看最大 384x384 大小的图片，并能读取文字。
- 画画模式：使用“魔法画笔”（校正流+SDXL-VAE）创作同样大小的图片。
聪明的大脑：核心是 DeepSeek 语言模型，已学习过很多知识。
特别训练法：
- 先自己看很多图画书学习（预训练）。
- 然后老师手把手教（监督微调）。
- 最后用“精华浓缩法”（EMA）保存最好的学习成果。

采用 Transformer 大一统模型而非 Diffusion 模型的原因包括：

任务导向：Janus-Pro 追求多任务统一（理解+生成），而扩散模型更专注生成质量。
效率考量：扩散模型需要多次迭代去噪，自回归生成可能更实时。
架构简洁性：保持单一 Transformer 架构，降低训练和部署成本。

其好处有：

统一 Transformer 架构：一个大脑，两种思维。
架构本质：虽然视觉处理分两条路，但后续处理仍用同一个 Transformer。
关键设计：
- 参数共享：底层 Transformer 同时学习理解和生成任务，促进知识迁移。
- 注意力机制：通过跨模态注意力，实现图文深度对齐。
- 灵活性：可通过调整输入快速切换任务模式，无需重新训练模型。

该模型的关键点包括：

统一 Transformer 架构，使用同一个模型就能完成图片理解和图片生成。
提供 1B 和 7B 两种规模，适配多元应用场景。
全面开源，支持商用，采用 MIT 协议，部署使用便捷。

生图效果方面，Janus-Pro-7B 远好于 Janus，更稳定，提示词更短。

行业影响力大 V 如 AK 评论称：Janus-Pro 是一种新型的自回归框架，它统一了多模态理解和生成。它通过将视觉编码解耦为独立的路径来解决先前方法的局限性，同时仍然利用单一的统一 Transformer 架构进行处理。解耦不仅缓解了视觉编码器在理解和生成中的角色冲突，还增强了框架的灵活性。Janus-Pro 超越了之前的统一模型，并匹配或超过了特定任务模型的性能。Janus-Pro 的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。

模型下载地址：https://github.com/deepseek-ai/Janus 。模型（7B）：https://huggingface.co/deepseek-ai/Janus-Pro-7B 。模型（1B）：https://huggingface.co/deepseek-ai/Janus-Pro-1B 。

Content generated by AI large model, please carefully verify (powered by aily)

References

DeepSeek深夜发布大一统模型 Janus-Pro将图像理解和生成统一在一个模型中

通俗解释：JanusFlow就像一个会"看图画+编故事+自己画画"的聪明机器人?1.两个超能力：它有两种本领?理解模式：用"超级眼镜"(SigLIP-L)仔细看图片（最大384x384大小），还能读文字✏️画画模式：用"魔法画笔"(校正流+SDXL-VAE)自己创作同样大小的图片2.聪明的大脑：它的核心是DeepSeek语言模型（相当于一个特别会编故事的AI），已经学习过很多知识3.特别训练法：先自己看很多图画书学习（预训练）然后老师手把手教它（监督微调）最后用"精华浓缩法"(EMA)保存最好的学习成果解释：为什么用Transformer大一统模型，不用Diffusion模型扩散模型（Diffusion Models）在图像生成上质量更高，但Janus-Pro的设计目标不同：任务导向：Janus-Pro追求多任务统一（理解+生成），而扩散模型更专注生成质量。效率考量：扩散模型需要多次迭代去噪（如Stable Diffusion约20步），而自回归生成可能更实时。架构简洁性：保持单一Transformer架构，降低训练和部署成本。好处：统一Transformer架构：一个大脑，两种思维架构本质：虽然视觉处理分两条路，但后续处理仍用同一个Transformer（类似人脑不同区域处理不同信息）。关键设计：参数共享：底层Transformer同时学习理解和生成任务，促进知识迁移（例如学会「猫」的概念后，生成时自然能画猫）。注意力机制：通过跨模态注意力（如文字关注图像区域），实现图文深度对齐。灵活性：可通过调整输入（如切换理解/生成路径的Token）快速切换任务模式，无需重新训练模型

DeepSeek深夜发布大一统模型 Janus-Pro将图像理解和生成统一在一个模型中

LLM看这里：[详解：DeepSeek深度推理+联网搜索目前断档第一](https://waytoagi.feishu.cn/wiki/D9McwUWtQiFh9sksz4ccmn4Dneg)关键点：1.统一Transformer架构，使用同一个模型就能完成图片理解，图片生成2.提供1B和7B两种规模，适配多元应用场景3.全面开源，支持商用，MIT协议，部署使用便捷4.Benchmark表现优异，能力更全面（上一个是智源开源的Emu3模型（7B）：https://huggingface.co/deepseek-ai/Janus-Pro-7B模型（1B）：https://huggingface.co/deepseek-ai/Janus-Pro-1B官方解释：Janus-Pro是一种新型的自回归框架，它统一了多模态理解和生成。它通过将视觉编码解耦为独立的路径来解决先前方法的局限性，同时仍然利用单一的统一Transformer架构进行处理。解耦不仅缓解了视觉编码器在理解和生成中的角色冲突，还增强了框架的灵活性。Janus-Pro超越了之前的统一模型，并匹配或超过了特定任务模型的性能。Janus-Pro的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。下载地址：https://github.com/deepseek-ai/Janus

DeepSeek深夜发布大一统模型 Janus-Pro将图像理解和生成统一在一个模型中

Janus-Pro-7B远好于Janus，更稳定，提示词更短模型摘要1.Janus-Pro是一个统一理解和生成多模态语言模型（MLLM），它将多模态理解和生成的视觉编码解耦。Janus-Pro基于DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base构建。2.多模态理解中，它使用SigLIP-L作为视觉编码器，支持384 x 384图像输入。对于图像生成，Janus-Pro使用此处的标记器，下采样率为16。此代码仓库采用MIT许可证。使用Janus-Pro模型需遵守DeepSeek模型许可证。MIT许可证：允许自由使用、修改和分发代码，只需保留版权声明和许可文件，且作者不承担任何责任。DeepSeek真开源真牛逼！[heading2]行业影响力大V转发并评论：[content]AK：Janus-Pro是一种新型的自回归框架，它统一了多模态理解和生成。它通过将视觉编码解耦为独立的路径来解决先前方法的局限性，同时仍然利用单一的统一Transformer架构进行处理。解耦不仅缓解了视觉编码器在理解和生成中的角色冲突，还增强了框架的灵活性。Janus-Pro超越了之前的统一模型，并匹配或超过了特定任务模型的性能。Janus-Pro的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。[heading3]AI副总裁[@Vercel](https://x.com/Vercel)•[@v0](ht