与知识库对话

JanusPro 是 DeepSeek 深夜发布的大一统模型，将图像理解和生成统一在一个模型中。它具有以下特点和优势： 1. 两种超能力：理解模式：用“超级眼镜”（SigLIPL）仔细看图片（最大 384x384 大小），还能读文字。画画模式：用“魔法画笔”（校正流+SDXLVAE）自己创作同样大小的图片。 2. 聪明的大脑：其核心是 DeepSeek 语言模型，已学习过很多知识。 3. 特别训练法：先自己看很多图画书学习（预训练）。然后老师手把手教它（监督微调）。最后用“精华浓缩法”（EMA）保存最好的学习成果。 4. 采用 Transformer 大一统模型的原因：任务导向：追求多任务统一（理解+生成），而扩散模型更专注生成质量。效率考量：扩散模型需要多次迭代去噪，自回归生成可能更实时。架构简洁性：保持单一 Transformer 架构，降低训练和部署成本。 5. 好处：统一 Transformer 架构：一个大脑，两种思维。架构本质：虽然视觉处理分两条路，但后续处理仍用同一个 Transformer。关键设计：参数共享，促进知识迁移；注意力机制，实现图文深度对齐；灵活性，可通过调整输入快速切换任务模式，无需重新训练模型。 6. 关键点：统一 Transformer 架构，使用同一个模型就能完成图片理解，图片生成。提供 1B 和 7B 两种规模，适配多元应用场景。全面开源，支持商用，MIT 协议，部署使用便捷。 7. 生图效果：JanusPro7B 远好于 Janus，更稳定，提示词更短。 8. 行业影响力大 V 转发并评论，认为它是一种新型的自回归框架，通过将视觉编码解耦为独立的路径解决先前方法的局限性，同时利用单一的统一 Transformer 架构进行处理，超越了之前的统一模型，并匹配或超过了特定任务模型的性能，其简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。模型下载地址：模型（7B）：https://huggingface.co/deepseekai/JanusPro7B 模型（1B）：https://huggingface.co/deepseekai/JanusPro1B 此代码仓库采用 MIT 许可证。使用 JanusPro 模型需遵守 DeepSeek 模型许可证。MIT 许可证允许自由使用、修改和分发代码，只需保留版权声明和许可文件，且作者不承担任何责任。