Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

Janus-Pro

Answer

Janus-Pro 是 DeepSeek 深夜发布的大一统模型,它将图像理解和生成统一在一个模型中。

其具有以下特点和优势:

  1. 拥有两种超能力:
    • 理解模式:使用“超级眼镜”(SigLIP-L)仔细查看最大 384x384 大小的图片,并能读取文字。
    • 画画模式:使用“魔法画笔”(校正流+SDXL-VAE)创作同样大小的图片。
  2. 聪明的大脑:核心是 DeepSeek 语言模型,已学习过很多知识。
  3. 特别训练法:
    • 先自己看很多图画书学习(预训练)。
    • 然后老师手把手教(监督微调)。
    • 最后用“精华浓缩法”(EMA)保存最好的学习成果。

采用 Transformer 大一统模型而非 Diffusion 模型的原因包括:

  1. 任务导向:Janus-Pro 追求多任务统一(理解+生成),而扩散模型更专注生成质量。
  2. 效率考量:扩散模型需要多次迭代去噪,自回归生成可能更实时。
  3. 架构简洁性:保持单一 Transformer 架构,降低训练和部署成本。

其好处有:

  1. 统一 Transformer 架构:一个大脑,两种思维。
  2. 架构本质:虽然视觉处理分两条路,但后续处理仍用同一个 Transformer。
  3. 关键设计:
    • 参数共享:底层 Transformer 同时学习理解和生成任务,促进知识迁移。
    • 注意力机制:通过跨模态注意力,实现图文深度对齐。
    • 灵活性:可通过调整输入快速切换任务模式,无需重新训练模型。

该模型的关键点包括:

  1. 统一 Transformer 架构,使用同一个模型就能完成图片理解和图片生成。
  2. 提供 1B 和 7B 两种规模,适配多元应用场景。
  3. 全面开源,支持商用,采用 MIT 协议,部署使用便捷。

生图效果方面,Janus-Pro-7B 远好于 Janus,更稳定,提示词更短。

行业影响力大 V 如 AK 评论称:Janus-Pro 是一种新型的自回归框架,它统一了多模态理解和生成。它通过将视觉编码解耦为独立的路径来解决先前方法的局限性,同时仍然利用单一的统一 Transformer 架构进行处理。解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。Janus-Pro 超越了之前的统一模型,并匹配或超过了特定任务模型的性能。Janus-Pro 的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。

模型下载地址:https://github.com/deepseek-ai/Janus 。模型(7B):https://huggingface.co/deepseek-ai/Janus-Pro-7B 。模型(1B):https://huggingface.co/deepseek-ai/Janus-Pro-1B 。

Content generated by AI large model, please carefully verify (powered by aily)

References

DeepSeek深夜发布大一统模型 Janus-Pro将图像理解和生成统一在一个模型中

通俗解释:JanusFlow就像一个会"看图画+编故事+自己画画"的聪明机器人?1.两个超能力:它有两种本领?理解模式:用"超级眼镜"(SigLIP-L)仔细看图片(最大384x384大小),还能读文字✏️画画模式:用"魔法画笔"(校正流+SDXL-VAE)自己创作同样大小的图片2.聪明的大脑:它的核心是DeepSeek语言模型(相当于一个特别会编故事的AI),已经学习过很多知识3.特别训练法:先自己看很多图画书学习(预训练)然后老师手把手教它(监督微调)最后用"精华浓缩法"(EMA)保存最好的学习成果解释:为什么用Transformer大一统模型,不用Diffusion模型扩散模型(Diffusion Models)在图像生成上质量更高,但Janus-Pro的设计目标不同:任务导向:Janus-Pro追求多任务统一(理解+生成),而扩散模型更专注生成质量。效率考量:扩散模型需要多次迭代去噪(如Stable Diffusion约20步),而自回归生成可能更实时。架构简洁性:保持单一Transformer架构,降低训练和部署成本。好处:统一Transformer架构:一个大脑,两种思维架构本质:虽然视觉处理分两条路,但后续处理仍用同一个Transformer(类似人脑不同区域处理不同信息)。关键设计:参数共享:底层Transformer同时学习理解和生成任务,促进知识迁移(例如学会「猫」的概念后,生成时自然能画猫)。注意力机制:通过跨模态注意力(如文字关注图像区域),实现图文深度对齐。灵活性:可通过调整输入(如切换理解/生成路径的Token)快速切换任务模式,无需重新训练模型

DeepSeek深夜发布大一统模型 Janus-Pro将图像理解和生成统一在一个模型中

LLM看这里:[详解:DeepSeek深度推理+联网搜索目前断档第一](https://waytoagi.feishu.cn/wiki/D9McwUWtQiFh9sksz4ccmn4Dneg)关键点:1.统一Transformer架构,使用同一个模型就能完成图片理解,图片生成2.提供1B和7B两种规模,适配多元应用场景3.全面开源,支持商用,MIT协议,部署使用便捷4.Benchmark表现优异,能力更全面(上一个是智源开源的Emu3模型(7B):https://huggingface.co/deepseek-ai/Janus-Pro-7B模型(1B):https://huggingface.co/deepseek-ai/Janus-Pro-1B官方解释:Janus-Pro是一种新型的自回归框架,它统一了多模态理解和生成。它通过将视觉编码解耦为独立的路径来解决先前方法的局限性,同时仍然利用单一的统一Transformer架构进行处理。解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。Janus-Pro超越了之前的统一模型,并匹配或超过了特定任务模型的性能。Janus-Pro的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。下载地址:https://github.com/deepseek-ai/Janus

DeepSeek深夜发布大一统模型 Janus-Pro将图像理解和生成统一在一个模型中

Janus-Pro-7B远好于Janus,更稳定,提示词更短模型摘要1.Janus-Pro是一个统一理解和生成多模态语言模型(MLLM),它将多模态理解和生成的视觉编码解耦。Janus-Pro基于DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base构建。2.多模态理解中,它使用SigLIP-L作为视觉编码器,支持384 x 384图像输入。对于图像生成,Janus-Pro使用此处的标记器,下采样率为16。此代码仓库采用MIT许可证。使用Janus-Pro模型需遵守DeepSeek模型许可证。MIT许可证:允许自由使用、修改和分发代码,只需保留版权声明和许可文件,且作者不承担任何责任。DeepSeek真开源真牛逼![heading2]行业影响力大V转发并评论:[content]AK:Janus-Pro是一种新型的自回归框架,它统一了多模态理解和生成。它通过将视觉编码解耦为独立的路径来解决先前方法的局限性,同时仍然利用单一的统一Transformer架构进行处理。解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。Janus-Pro超越了之前的统一模型,并匹配或超过了特定任务模型的性能。Janus-Pro的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。[heading3]AI副总裁[@Vercel](https://x.com/Vercel)•[@v0](ht

Others are asking
Janus-Pro
JanusPro 是 DeepSeek 深夜发布的大一统模型,将图像理解和生成统一在一个模型中。 它具有以下特点和优势: 1. 两种超能力: 理解模式:用“超级眼镜”(SigLIPL)仔细看图片(最大 384x384 大小),还能读文字。 画画模式:用“魔法画笔”(校正流+SDXLVAE)自己创作同样大小的图片。 2. 聪明的大脑:其核心是 DeepSeek 语言模型,已学习过很多知识。 3. 特别训练法: 先自己看很多图画书学习(预训练)。 然后老师手把手教它(监督微调)。 最后用“精华浓缩法”(EMA)保存最好的学习成果。 4. 采用 Transformer 大一统模型的原因: 任务导向:追求多任务统一(理解+生成),而扩散模型更专注生成质量。 效率考量:扩散模型需要多次迭代去噪,自回归生成可能更实时。 架构简洁性:保持单一 Transformer 架构,降低训练和部署成本。 5. 好处: 统一 Transformer 架构:一个大脑,两种思维。 架构本质:虽然视觉处理分两条路,但后续处理仍用同一个 Transformer。 关键设计:参数共享,促进知识迁移;注意力机制,实现图文深度对齐;灵活性,可通过调整输入快速切换任务模式,无需重新训练模型。 6. 关键点: 统一 Transformer 架构,使用同一个模型就能完成图片理解,图片生成。 提供 1B 和 7B 两种规模,适配多元应用场景。 全面开源,支持商用,MIT 协议,部署使用便捷。 7. 生图效果:JanusPro7B 远好于 Janus,更稳定,提示词更短。 8. 行业影响力大 V 转发并评论,认为它是一种新型的自回归框架,通过将视觉编码解耦为独立的路径解决先前方法的局限性,同时利用单一的统一 Transformer 架构进行处理,超越了之前的统一模型,并匹配或超过了特定任务模型的性能,其简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。 模型下载地址: 模型(7B):https://huggingface.co/deepseekai/JanusPro7B 模型(1B):https://huggingface.co/deepseekai/JanusPro1B 此代码仓库采用 MIT 许可证。使用 JanusPro 模型需遵守 DeepSeek 模型许可证。MIT 许可证允许自由使用、修改和分发代码,只需保留版权声明和许可文件,且作者不承担任何责任。
2025-02-12
PromptEnhancer
以下是关于 PromptEnhancer 的相关信息: PromptEnhancer 是一款自动生成/优化 prompt 的工具。 在对最流行的“AI 提示生成器”的比较分析中,针对“作为一名 IT 学生,为我的高级项目提出想法;我想要关于学生帮助大学学生的想法”这一测试种子提示,PromptEnhancer 在实验中的成绩为 4 胜 0 负。 相关链接:https://flowgpt.com/prompt/sbuYQwUq_8v8fafR5zJuB
2025-04-20
1.2Prompts 市场营销类
以下是关于市场营销类的 1.2 Prompts(提示词)相关内容: 专业推特新闻小编(作者:Carl):提取文本里的关键信息,整理所有信息并用浅显易懂的方式重新说一遍,让没有技术背景的人也能听懂,同时要写得吸引眼球。使用 Unicode 符号和 Emoji 表情符号来优化排版,提供更好的阅读体验。目标包括提取新闻关键信息并用浅显方式重新表述、为用户提供更好阅读体验让信息更易理解、增强信息可读性提高用户专注度。约束条件为不会偏离原始信息,只基于原有信息收集的消息做合理改编,只使用 Unicode 符号和 Emoji 表情符号进行排版。参考链接: 给 Prompt 打分(作者:李继刚):类似 Prompt 药剂师,通过对用户的 Prompt 进行分析,给出评分和改进建议,帮助用户提升 Prompt 的效果。用户基于当下认知写完 Prompt,不知现在的写法有什么问题,需要帮忙分析。要提供准确的评分和改进建议,避免胡编乱造的信息。参考链接:
2025-04-09
分析程序员在AI能力上的不同维度,比如AI框架,AIPrompt等
以下是对程序员在 AI 能力上不同维度的分析,包括 AI 框架和 AI Prompt 等方面: AI 框架: PromptPal:专为 AI 领域中的初创公司和个人开发者设计的提示管理工具,是一个集中化平台,便于在 AI 项目中管理提示,实现协作和工作流程优化。具有本地部署和云原生、简易设置、数据库支持、SDK 支持、提示跟踪与分析、协作工具等特点。开发指向: ChainForge:开源的可视化编程环境,专门用于测试大型语言模型(LLMs)的提示。允许用户进行快速而有效的提示想法测试和变化,具有多模型测试、响应质量比较、评估指标设置、多对话管理等特点。开发指向: AI Prompt: Promptknit:为 AI Prompts 测试提供服务的平台,可能提供工具和资源来帮助用户设计、测试和优化 AI 模型的提示。网站: 对于律师等法律人写好 Prompt 的建议: 明确 Prompt 是给人工智能(AI)系统提供的信息或问题,用来引导其产生特定回答或执行特定任务。 建议框架及格式:CRISPE 包括 Capacity and Role(能力与角色)、Insight(洞察)、Statement(陈述)、Personality(个性)、Experiment(举例)。例如,在处理合同纠纷案件时,为 AI 赋予角色和能力,提供背景信息和上下文,明确期望其完成的任务,设定回答风格等。
2025-04-09
如何学习Prompt
以下是关于如何学习 Prompt 的详细指导: 一、准备工作 首先,您需要有一个大模型帐号,并熟悉与它们对话的方式。以下为您推荐一些可用的平台: 1. ChatGPT4(性能最强) 2. 国产平替: 二、学习资料 1. 必看 OpenAI 的官方文档: 同时,还有中文精度版的官方 Cookbook 可供参考: 三、网站资源 以下是一些精选的 Prompt 相关网站: |站点名|网站介绍|地址|附件| ||||| |Learning Prompt|授人以渔,非常详尽的 Prompt 学习资源,包括 ChatGPT 和 MidJourney||| |FlowGPT|国外做的最大的 prompt 站,内容超全面,更新快||| |ChatGPT Shortcut|ChatGPT 提示词网站,提供了非常多使用模板,简单修改即可指定输出||| |ClickPrompt|轻松查看、分享和一键运行模型,创建 Prompt 并与其他人分享||| |Prompt Extend|让 AI 帮你自动拓展 Prompt||| |PromptPerfect|帮你自动优化提示词,你可以看到优化前后的对比||| |PromptKnit|The best playground for prompt designers||| |PromptPort(支持中文)|AI Prompt 百科辞典,其中 prompts 是聚合了市场上大部分优质的 prompt 的词库,快速的寻找到用户需求 prompt||| |Prompt Engineering Guide|GitHub 上点赞量非常高的提示工程指南,基于对大语言模型的浓厚兴趣,编写了这份全新的提示工程指南,介绍了大语言模型相关的论文研究、学习指南、模型、讲座、参考资料、大语言模型能力以及与其他与提示工程相关的工具。||| 四、学习建议 1. 理解提示词的作用:提示词向模型提供了上下文和指示,其质量直接影响模型输出的质量。 2. 学习提示词的构建技巧: 明确任务目标,用简洁准确的语言描述。 给予足够的背景信息和示例,帮助模型理解语境。 使用清晰的指令,如“解释”、“总结”、“创作”等。 对特殊要求应给予明确指示,如输出格式、字数限制等。 3. 参考优秀案例:研究和学习已有的优秀提示词案例,可在领域社区、Github 等资源中查找。 4. 实践、迭代、优化:多与语言模型互动,根据输出提高提示词质量。尝试各种变体,比较分析输出差异,持续优化提示词构建。 5. 活用提示工程工具:如 Anthropic 的 Constitutional AI。 6. 跟上前沿研究:提示工程是当前前沿研究领域之一,持续关注最新研究成果和方法论。 精心设计的提示词能最大限度发挥语言模型的潜力,多实践、多学习、多总结,终可掌握窍门。请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-03-29
学习Prompt Engineering
提示工程(Prompt Engineering)是人工智能领域中,特别是在自然语言处理(NLP)和大型语言模型(LLMs)的上下文中一个相对较新的概念。 其关键点包括: 1. 精确性:通过精确的提示,提高 AI 模型输出的相关性和准确性。 2. 创造性:需要创造性地思考如何构建问题或请求,以激发 AI 模型的特定能力。 3. 迭代:通常需要多次尝试和调整提示,以获得最佳结果。 4. 上下文理解:提示需要包含足够的上下文信息,以便 AI 模型能够理解并执行所需的任务。 提示词通常指的是直接输入到 AI 模型中的问题、请求或指示,它们是提示工程的一部分。提示词可以简单,也可以复杂。 提示工程与提示词的区别在于:提示词是实际输入到 AI 系统中的具体文本,用以引导模型的输出。提示工程则是一个更广泛的概念,不仅包括创建提示词,还涉及理解模型的行为、优化提示以获得更好的性能、以及创造性地探索模型的潜在应用。提示工程的目标是最大化 AI 模型的效用和性能,而提示词是实现这一目标的手段之一。 在实际应用中,提示工程的提示开发生命周期包括: 1. 开发测试用例:在定义任务和成功标准之后,创建一组多样化的测试用例,涵盖应用程序的预期用例,包括典型示例和边界情况,以确保提示具有鲁棒性。提前定义好的测试用例将使您能够客观地衡量提示与成功标准的表现。 2. 设计初步提示:制定一个初步的提示,概述任务定义、良好响应的特征,以及所需的上下文。理想情况下,添加一些规范输入和输出的示例供参考。这个初步提示将作为改进的起点。 3. 根据测试用例测试提示:使用初步提示将测试用例输入到模型中。仔细评估模型的响应与预期的输出和成功标准是否一致。使用一致的评分标准,无论是人工评估、与答案标准的比较,甚至是基于评分标准的模型判断。关键是要有一种系统性的评估性能的方式。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-03-25
写Prompt的技巧
以下是关于写 Prompt 的技巧: 1. 明确任务:清晰定义任务,如写故事时包含背景、角色和主要情节。 2. 提供上下文:若任务需特定背景知识,提供足够信息。 3. 使用清晰语言:尽量用简单、清晰的语言,避免模糊或歧义词汇。 4. 给出具体要求:如有特定格式或风格要求,在 Prompt 中明确指出。 5. 使用示例:如有特定期望结果,提供示例帮助 AI 模型理解需求。 6. 保持简洁:避免过多信息,防止 AI 模型困惑。 7. 使用关键词和标签:有助于模型理解任务主题和类型。 8. 测试和调整:生成文本后检查结果,根据需要调整 Prompt 。 此外,编写 Prompt 还可注意以下几点: 尽可能多挖掘需求信息。 把需求信息变成清晰合理的 Prompt 。 不断尝试迭代,直至 Prompt 能解决问题。 在写 Prompt 时,利用 Fewshots 技巧也很实用,通过提供 1 3 个输入 输出示例,让 GPT 学到样本共性,提升输出结果质量。可在“如何写好 Prompt:结构化”的基础上,增加“Examples:”结构块,举 1 3 个示例。
2025-03-21