DeepSeek 可以文生图。
DeepSeek 深夜发布的大一统模型 JanusPro 将图像理解和生成统一在一个模型中。全新的 Emu3 仅通过预测下一个 token 这一建模范式进行训练,可完成文本、图像、视频三种模态数据的理解和生成。Emu3 支持高质量文生图,支持灵活的分辨率和风格。
JanusPro7B 远好于 Janus,更稳定,提示词更短。JanusPro 是一个统一理解和生成多模态语言模型(MLLM),它将多模态理解和生成的视觉编码解耦。
此外,DeepSeek 开源的多模态模型 JanusPro 寓意古罗马双面神雅努斯,既能进行视觉理解,也能生成图像。与 DALLE 3 相比,JanusPro 在参数上领先,并具备图像识别、地标识别等多种能力。该模型通过更优化的训练策略、更海量的数据和更大规模的参数(70 亿)实现了更强的智能表现。
2025-02-05