Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

comfy UI 如何保持人物一致性

Answer

要在 ComfyUI 中保持人物一致性,可以通过以下方式实现:

  1. PuLID 技术:
    • PuLID 是一种用于在文本生成图像时自定义图像中人物或物体身份(ID)的新技术,无需复杂调整。
    • 它结合了 Lightning T2I 分支和标准扩散模型两个不同的模型分支,并引入了对比对齐损失和精确 ID 损失两种损失,以确保在保持原始模型效果的同时,高精度地自定义 ID。
    • Lightning T2I 分支是快速、高效的文本到图像生成模型,标准扩散模型是常见的生成高质量图像的模型。
    • PuLID 可以让您在生成图像时更精确地定制人物或物体的身份,将特定 ID(例如人脸)嵌入到预训练的文本到图像模型中,而不会破坏模型的原始能力。
    • 项目地址:https://github.com/ToTheBeginning/PuLID
    • 相关资源:
      • 百度网盘:https://pan.baidu.com/s/1Tro9oQM85BEH7IQ8gVXKsg?pwd=cycy
      • 工作流与模型地址:https://pan.quark.cn/s/2a4cd9bb3a6b
      • 说明文档:https://xiaobot.net/post/6544b1e8-1d90-4373-94cf-0249d14c73c8
    • instant ID 脸部特征抓取得比 PuLID 好,可放在最后一步重绘,先 PuLID,再 instantID。
  2. 节点设置:
    • 节点插件 PuLID ComfyUI:https://github.com/cubiq/PuLID_ComfyUI
    • model:使用预训练的基础文本到图像扩散模型,如 Stable Diffusion。
    • pulid:加载的 PuLID 模型权重,定义 ID 信息如何插入基础模型。
    • eva_clip:用于从 ID 参考图像中编码面部特征的 Eva-CLIP 模型。
    • face_analysis:使用 InsightFace 模型识别和裁剪 ID 参考图像中的面部。
    • image:提供的参考图像用于插入特定 ID。
    • method:选择 ID 插入方法,如“fidelity”(优先保真度)、“style”(保留生成风格)和“neutral”(平衡两者)。
    • weight:控制 ID 插入强度,范围为 0 到 5。
    • start_at 和 end_at:控制在去噪步骤的哪个阶段开始和停止应用 PuLID ID 插入。
    • attn_mask:此选项用于提供灰度掩码图像,以控制 ID 自定义的应用位置,但并不是必需输入,而是可选输入。
    • Advanced Node:提供了高级节点,可以通过调整 fidelity 滑块和 projection 选项进行更精细的生成调优。比如,ortho_v2 和 fidelity:8 等价于标准节点的 fidelity 方法,而 projection ortho 和 fidelity:16 等价于 style 方法。

此外,在 8 月 13 日的 ComfyUI 共学中也提到控制人物一致性有很多方法,课程后期会介绍。

Content generated by AI large model, please carefully verify (powered by aily)

References

Comfyui PuLID人物一致

PuLID是一种新的技术,用于在文本生成图像时自定义图像中的人物或物体的身份(ID),不需要进行复杂的调整。它结合了两个不同的模型分支(Lightning T2I分支和标准扩散模型),引入了两种损失(对比对齐损失和精确ID损失),以确保在保持原始模型效果的同时,高精度地自定义ID。简单来说,PuLID可以让你在生成图像时更精确地定制人物或物体的身份,将特定ID(例如人脸)嵌入到预训练的文本到图像模型中,而不会破坏模型的原始能力。这允许生成特定人物的图像,同时仍然能够使用文本提示修改属性、样式、背景等1.模型分支:Lightning T2I分支:这是一个快速、高效的文本到图像生成模型。标准扩散模型:这是一个常见的、生成高质量图像的模型。PuLID把这两个模型结合起来,利用它们各自的优势。1.两种损失:对比对齐损失:这个损失帮助模型学习将输入的文本和生成的图像内容对齐,使生成的图像更符合文本描述。精确ID损失:这个损失确保生成的图像中的特定身份特征(比如人物的脸部特征)与目标ID一致。通过结合这两个模型分支和引入这两种损失,PuLID可以在生成图像时更准确地自定义身份,并且生成的图像在插入ID前后保持一致性。项目地址https://github.com/ToTheBeginning/PuLIDinstant ID脸部特征抓取得比pulid好,放在最后一步重绘,先pulid,再instantIDhttps://pan.baidu.com/s/1Tro9oQM85BEH7IQ8gVXKsg?pwd=cycy工作流与模型地址https://pan.quark.cn/s/2a4cd9bb3a6b说明文档https://xiaobot.net/post/6544b1e8-1d90-4373-94cf-0249d14c73c8

8月13日ComfyUI共学

[heading2]总结关于Lora串联和图像放大模型的讨论Lora串联:多个Lora串联时左右顺序不影响结果,可复制并点对点连接。CLIP层调整:CLIP层-1和-2的效果不同,加Lora时某些Lora可能更适合-2。Lora作用:Lora可用于生成底模无法画出的内容,是一种经济实用的模型微调方式。打断渲染跑图:在运行中点击取消可打断正在渲染跑的图。图像放大模型:通过up scale image using model节点放大图像,可选择放大模型,用resize节点调整尺寸,再用编码器和采样器处理。采样原因:放大模型直接放大的图像效果不佳,需再次采样增加细节。关于飞桨使用中节点添加及相关问题的讨论添加飞桨缺失节点的方法:可以将工作流拖入查看标红节点,通过管理器安装缺失节点,也可从GitHub获取节点包放入文件管理系统。图像放大方式的效果差异:通过专门训练的放大模型放大图像效果更好,直接像素放大效果不佳。采样器和调度器参数设置:建议参考模型作者推荐的参数,并结合自己的调试来寻找最佳参数,推荐了o2a、DMP佳佳2M采样器和normal、cars调度器。Web UI模型管理的备注问题:目前未找到较好的给模型加备注的节点,靠改模型文件夹名字备注。人物一致性控制:控制人物在多场景、多个姿势下的一致性有很多方法,课程后期会介绍。多张图输出的显示问题:一次产出多张图在预览窗口目前不能并排显示。Lora的刷新:将Lora丢到文件夹后,多点几次刷新即可,Web UI中Lora库有刷新按钮。进阶学习途径:提到一些全球交流频道,如Confii生态大会相关频道。

Comfyui PuLID人物一致

节点插件PuLID ComfyUI https://github.com/cubiq/PuLID_ComfyUImodel:使用预训练的基础文本到图像扩散模型,如Stable Diffusion。pulid:加载的PuLID模型权重,定义ID信息如何插入基础模型。eva_clip:用于从ID参考图像中编码面部特征的Eva-CLIP模型。face_analysis:使用InsightFace模型识别和裁剪ID参考图像中的面部。image:提供的参考图像用于插入特定ID。method:选择ID插入方法,如"fidelity"(优先保真度)、"style"(保留生成风格)和"neutral"(平衡两者)。weight:控制ID插入强度,范围为0到5。start_at和end_at:控制在去噪步骤的哪个阶段开始和停止应用PuLID ID插入。attn_mask:此选项用于提供灰度掩码图像,以控制ID自定义的应用位置,但并不是必需输入,而是可选输入。Advanced Node:提供了高级节点,可以通过调整fidelity滑块和projection选项进行更精细的生成调优。比如,ortho_v2和fidelity:8等价于标准节点的fidelity方法,而projection ortho和fidelity:16等价于style方法。

Others are asking
ComfyUI
ComfyUI 是一个基于节点流程式的 stable diffusion AI 绘图工具 WebUI,类似于集成了 stable diffusion 功能的 substance designer,通过将 stable diffusion 的流程拆分成节点,实现了更精准的工作流定制和完善的可复现性。 其优势包括: 1. 对显存要求相对较低,启动速度快,出图速度快。 2. 具有更高的生成自由度。 3. 可以和 webui 共享环境和模型。 4. 可以搭建自己的工作流程,可以导出流程并分享给别人,报错时能清晰发现错误所在步骤。 5. 生成的图片拖进后会还原整个工作流程,模型也会选择好。 劣势有: 1. 操作门槛高,需要有清晰的逻辑。 2. 生态没有 webui 多(常用的都有),也有一些针对 Comfyui 开发的有趣插件。 官方链接:从 github 上下载作者部署好环境和依赖的整合包,按照官方文档按照即可:https://github.com/comfyanonymous/ComfyUI 。 安装部署方面: 1. 地址:https://github.com/comfyanonymous/ComfyUI ,可以下载安装包也可以直接 Git clone https://github.com/comfyanonymous/ComfyUI.git ,或者下载安装包 file:ComfyUI.zip ,下载安装包或者点击链接下载并解压至本地除 C 盘外的任意盘。然后找到文件名称为 run_nvidia_gpu 的文件双击并启动。启动完成即进入基础界面。 2. 节点存放目录:comfyUI 的节点包括后面安装的拓展节点都存放在本目录下 D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\custom_nodes 。 3. 模型存放目录: 大模型:D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\models\\checkpoints 。 Lora:D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\models\\loras 。 Vae:D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\models\\vae 。 4. 模型共用:已经安装了 SDWebUI 的同学可以通过修改文件路径和 WebUI 共用一套模型即可,这样就不用重复下载模型了。找到已安装好的 ComfyUI 目录文件下的 extra_model_paths.yaml.example 文件,将后缀.example 删除,然后右键用记事本打开。 此外,还可以直接在 Comfy UI 中训练 LoRA 模型。
2025-04-14
Ai生成UI
以下是关于 AI 生成 UI 的相关内容: 使用 Midjourney 生成 UI 界面: 页面指令:指定生成某个页面(如首页、登录页等),只需添加页面指令描述,如“landing page”可生成社交平台的登录页设计,“Profile Page”可生成人力资源类产品的个人资料页。 应用场景:Midjourney 产出的设计图视觉效果佳,适合在 APP 设计的初始阶段,如头脑风暴和风格探索中提供灵感和创意。但目前直接用于落地开发仍有距离,不过随着技术迭代,这个距离会逐渐缩短。 多模态 4O 在 UI 设计中的应用: 可以先借助 AI 生成设计概要概念,应用于 Web 应用创建和 UI 页面设计,也能直接生成 UI 界面。 Midjourney 商业实战案例中的 UI 设计: 如数据图标、B 端图标设计、音乐软件 UI 设计等。但部分生成的 UI 设计存在不规范、文字乱的情况,只能作为风格参考。网上已有很多 AI 生成的 UI 设计软件开始内测。
2025-04-12
comfyUI是什麼?
ComfyUI 是一个基于节点流程式的 stable diffusion AI 绘图工具 WebUI,您可以将其视为集成了 stable diffusion 功能的 substance designer。通过把 stable diffusion 的流程拆分成节点,实现了更精准的工作流定制和良好的可复现性。 其具有以下优势: 1. 对显存要求相对较低,启动速度快,出图速度快。 2. 具有更高的生成自由度。 3. 可以和 webui 共享环境和模型。 4. 可以搭建自己的工作流程,可以导出流程并分享给别人,报错时能清晰发现错误所在步骤。 5. 生成的图片拖进后会还原整个工作流程,模型也会选择好。 但也存在一些劣势: 1. 操作门槛高,需要有清晰的逻辑。 2. 生态没有 webui 多(常用的都有),不过也有一些针对 Comfyui 开发的有趣插件。 ComfyUI 是一个开源的图形用户界面,用于生成 AI 图像,主要基于 Stable Diffusion 等扩散模型。其工作原理包括: 1. Pixel Space(像素空间):图的左边表示输入图像的像素空间,在 ComfyUI 中,对应于可能通过“图像输入”模块或直接从文本提示生成的随机噪声图像。生成过程结束时,系统会将处理后的潜在表示转换回像素空间,生成最终的图像。 2. Latent Space(潜在空间):ComfyUI 中的许多操作都在潜在空间中进行,如 KSampler 节点就是在这个空间中执行采样过程。图像被映射到潜在空间后,扩散过程在这个空间中进行。在 ComfyUI 中,您可以通过节点调整对潜在空间的操作,如噪声添加、去噪步数等。 3. 扩散过程(Diffusion Process):噪声的生成和逐步还原。扩散过程表示的是从噪声生成图像的过程。在 ComfyUI 中,这通常通过调度器(Schedulers)控制,典型的调度器有 Normal、Karras 等,它们会根据不同的采样策略逐步将噪声还原为图像。您可以通过 ComfyUI 中的“采样器”节点选择不同的调度器,来控制如何在潜在空间中处理噪声,以及如何逐步去噪回归到最终图像。时间步数在生成图像时,扩散模型会进行多个去噪步。 您可以从 github 上下载作者部署好环境和依赖的整合包,按照官方文档安装即可:https://github.com/comfyanonymous/ComfyUI 。 此外,开源项目作者 ailm 在 ComfyUI 上搭建了一个可以接入飞书的 AI 女友麦洛薇(mylover),实现了稳定人设,无限上下文,永久记忆,无缝联动 SD 绘图等功能,适合完全没有代码基础的小伙伴们复现并且按自己的想法修改。
2025-04-10
UI的AI软件
以下是关于 UI 的 AI 软件的相关内容: 方法 1【云端 Comfyui 出图 + AI 视频软件】 作者:来来 联系方式:laiweb3(添加请注明 AI 视频) 相关账号:公众号/视频号/小红书/B 站:来来说 AI 作者标签:20 年设计师,10 年大学设计老师,电商设计公司创始人 10 年,AI 图书作者《一本书读懂 AI 绘画》《一本书读懂 AIGC 提示词》 操作步骤: 打开链接的工作流:https://www.esheep.com/app/5977 ,点击查看工作流,会出现登录或注册界面正常注册即可。如果已经登录会自动出现下面的界面。 步骤 1:红色框选择生成图片的大模型,绿色框添加提示词,蓝色框填写反向提示词。 步骤 2:红色框设置大小确保是 16:9 的比例,绿色框修改参数,参数不理解的话保持默认即可。 步骤 3:红色框上传深度图。 步骤 4:点击立即生成,最下面就会出现图片,在生成历史中下载图片即可。 【ComfyUI】Blender + Stable Diffusion! 作者:白马少年 介绍:SD 实践派,出品精细教程 发布时间:20230905 19:00 原文网址:https://mp.weixin.qq.com/s/vdm9L_xsZc8d3ZZj7CrLdw Blender 是一款免费开源的三维制作软件,和 SD 一样,具有极高的自由度,可以将很多功能包容进来。ComfyUI 的界面主要是节点操作,和 Blender 在工作流程上天然适配。最近,“只剩一瓶辣椒酱”和幻之境开发小组联合开发了一款基于 STABLE DIFFUSION ComfyUI 核心的 Blender AI 插件——无限圣杯。
2025-04-01
UI相关的ai工具有哪些
以下是一些与 UI 相关的 AI 工具: 1. UIzard:利用 AI 技术生成用户界面,可根据提供的信息快速生成 UI 设计。 2. Figma:基于云的设计工具,提供自动布局和组件库,其社区开发的一些 AI 插件可增强设计流程。 3. Sketch:流行的矢量图形设计工具,插件系统中部分插件利用 AI 技术辅助设计工作。 4. UIGENT1:基于 Qwen2.5Coder7B 微调,能根据提示生成标准 HTML/CSS 代码,擅长基础前端页面。 5. Galileo AI:可根据文字或图片生成完整 UI 设计,并导出 HTML 和 Figma 文件。 6. 即时设计:https://js.design/ ,可在线使用的专业 UI 设计工具,注重云端文件管理和团队协作。 7. V0.dev:https://v0.dev/ ,Vercel Labs 推出的 AI 生成式用户界面系统,能通过文本或图像生成代码化的用户界面。 8. Wix:https://wix.com/ ,用户友好的 AI 工具,无需编码知识即可创建和自定义网站。 9. Dora:https://www.dora.run/ ,通过一个 prompt,借助 AI 3D 动画生成强大网站。 请注意,部分内容由 AI 大模型生成,请仔细甄别。
2025-03-27
Trae生成产品UI
以下是关于使用 Trae 生成产品 UI 的相关信息: 1. DeepSeek 驱动的网页金句卡片生成: 先开发基础版本的浏览器插件,包括选择文字、自定义生成图片,图片底部包含文章标题和链接二维码。 使用 AI Rules 的 Chat 模式完善产品需求(PRD),Trae 运行后会创建 readme 文档,可在其中修改,带有章节选择。 使用 Builder 模式开发产品,在 AI Rules 里指定技术方案,在 readme 里指定产品需求,然后让 Trae 自动化开发。开发完成后在 Chrome 浏览器内加载扩展程序进行调试,第一次报错可能是未创建浏览器插件图标,将截图发给 Trae 处理后重新加载。但需注意 Claude 3.5 模型不具备直接生成图片的能力。 2. 保姆级使用指南: 有控制按钮(开始、暂停、重新开始)和游戏说明。 可生成任务清单应用,输入相关需求即可。 能根据 UI 设计图自动生成项目代码,如输入“使用 html 技术实现如图大屏页面”,但生成效果可能不完美,可让 Trae 调整。 总结:Trae 高效代码生成能力强,支持多技术栈,有动态调整潜力。 3. 智能纪要: 基于 Tree 的海关归类项目及商业化探讨,包括固定随机种子、开发记忆大模型、搭建爬虫工作流、实现全参量归类、解决技术问题、项目成果展示和商业化探讨。 利用 AI 实现工作流封装并面向 C 端的项目介绍,包括前端开发尝试和小程序落地实现,后端接入处理时不会接 API 可让 Trae 帮忙。
2025-03-25
comfyui工作流
ComfyUI 工作流主要包括以下内容: FLUX 低显存运行工作流:目的是让 FLUX 模型能在较低的显存情况下运行。分阶段处理思路为:先在较低分辨率下使用 Flux 模型进行初始生成,然后采用两阶段处理,即先用 Flux 生成,后用 SDXL 放大,有效控制显存的使用,最后使用 SD 放大提升图片质量。工作流的流程包括初始图像生成(Flux)的一系列操作,如加载相关模型、处理输入提示词、生成初始噪声和引导等,以及初始图像预览;图像放大和细化(SDXL)的一系列操作,如加载 SDXL 模型、对初始图像进行锐化处理等,还有最终图像预览。 工作流网站: “老牌”workflow 网站 Openart.ai:https://openart.ai/workflows/ 。流量比较高,支持上传、下载、在线生成,免费账户总共有 50 个积分,加入 Discord 可以再加 100 积分,开通最低的每个月 6 美元的套餐后,每个月会有 5000 积分。 ComfyWorkflows 网站:https://comfyworkflows.com/cloud 。支持在线运行工作流,从 workflow 的实际下载量和访问量来看,略少于 openart。 Flowt.ai:https://flowt.ai/community 。 绿幕工作流:包含两个组,即生成绿幕素材和绿幕素材抠图。因为 SD 无法直接生成透明背景的 png 图片,所以要先生成一张素材图,前景是重要的主体素材,背景是纯色(方便识别),选择绿幕是为了方便抠图。工作流文件可通过链接 https://pan.quark.cn/s/01eae57419ce 提取(提取码:KxgB),下载拖入 ComfyUI 中自动加载工作流进行学习。
2025-04-14
comfyui
ComfyUI 是一个基于节点流程式的 stable diffusion AI 绘图工具 WebUI,可想象成集成了 stable diffusion 功能的 substance designer,将 stable diffusion 流程拆分成节点,实现更精准工作流定制和完善的可复现性。 其优势包括: 1. 对显存要求相对较低,启动和出图速度快。 2. 生成自由度更高。 3. 可以和 webui 共享环境和模型。 4. 能搭建自己的工作流程,可导出流程并分享,报错时能清晰发现错误所在。 5. 生成的图片拖进后会还原整个工作流程,模型也会选择好。 劣势有: 1. 操作门槛高,需要有清晰逻辑。 2. 生态没有 webui 多(但常用的都有),也有一些针对 Comfyui 开发的有趣插件。 官方链接:https://github.com/comfyanonymous/ComfyUI 。 安装部署方面: 1. 地址:https://github.com/comfyanonymous/ComfyUI ,可以下载安装包也可以直接 Git clone https://github.com/comfyanonymous/ComfyUI.git ,或者下载安装包 file:ComfyUI.zip ,下载安装包或者点击链接下载并解压至本地除 C 盘外的任意盘。然后找到文件名称为 run_nvidia_gpu 的文件双击并启动,启动完成即进入基础界面。 2. 节点存放目录:comfyUI 的节点包括后面安装的拓展节点都存放在 D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\custom_nodes 。 3. 模型存放目录: 大模型:D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\models\\checkpoints 。 Lora:D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\models\\loras 。 Vae:D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\models\\vae 。 4. 模型共用:已经安装了 SDWebUI 的同学可以通过修改文件路径和 WebUI 共用一套模型,找到已安装好的 ComfyUI 目录文件下的 extra_model_paths.yaml.example 文件,将后缀.example 删除,然后右键用记事本打开。 此外,还可以直接在 Comfy UI 中训练 LoRA 模型。默认情况下,训练结果直接保存在 ComfyUI lora 文件夹中,训练后只需刷新并选择 LoRA 就可以测试。
2025-04-13
comfyui漫画工作流
ComfyUI 漫画工作流包含以下内容: 1. 绿幕工作流:包含两个组,即生成绿幕素材和绿幕素材抠图。因为 SD 无法直接生成透明背景的 png 图片,所以要先生成一张素材图,前景是重要的主体素材,背景为纯色(方便识别),选择绿幕是为了便于抠图。工作流文件链接:https://pan.quark.cn/s/01eae57419ce 提取码:KxgB 2. 动画工作流: 啊朔提供的动画工作流文件,如:
2025-04-13
comfyui动画片工作流怎么构建
构建 ComfyUI 动画片工作流的步骤如下: 1. 打开 Comfyui 界面后,右键点击界面,找到 Comfyui LLM party 的目录。您可以学习手动连接节点来实现最简单的 AI 女友工作流,也可以将工作流文件拖拽到 Comfyui 界面中一键复刻提示词工程实验。 2. 从 ollama 的 github 仓库找到对应版本并下载。启动 ollama 后,在 cmd 中输入 ollama run gemma2 将自动下载 gemma2 模型到本地并启动。将 ollama 的默认 base URL=http://127.0.0.1:11434/v1/以及 api_key=ollama 填入 LLM 加载器节点即可调用 ollama 中的模型进行实验。 3. 若 ollama 连接不上,很可能是代理服务器的问题,请将 127.0.0.1:11434 添加到不使用代理服务器的列表中。 此外,还有以下相关工作流搭建的信息供您参考: 1. 搭建艺术二维码工作流:打开 ComfyUI 导入相应工作流。工作流所用到的节点包括大模型节点(可选择如 AWPainting、primemixanything、xxmix9realistic v40 等,并提供了相应链接)、关键词节点、Lora 节点、ControlNet 节点(选用 qrcode_monster V2 版本,下载链接:https://huggingface.co/monsterlabs/control_v1p_sd15_qrcode_monster/tree/main/v2 )、采样器节点(Step 选择高步数,35 50 即可,采样器默认的 euler a/dpmpp 2m sde )。 2. 搭建 ComfyUI 基础工作流:从零开始搭建时,首先准备加载大模型的节点,在工作区鼠标右键点击,选择 Add Node > 选择 loaders > 选择 Load Checkpoint,并选择对应的模型。然后加载 Conditioning(条件),在工作区鼠标右键点击,选择 Add Node > 选择 Conditioning > 选择 CLIP TEXT Encode,输入正反向提示词。添加采样器时,部分参数设置与 WEB_UI 有所不同,如 seed 值只有固定、随机、每次增加、每次减少这四个选项,采样器和调度器是分开的。
2025-04-13
comfyui如何本地安装
以下是在本地安装 ComfyUI 的详细步骤: 安装方式有两种,分别是安装到本地和安装到云端。本部分主要介绍本地安装方法。 本地安装方法: 1. 命令行安装: 这是普适性最强的方法,安装后二次遇到问题的概率相对较低,但对于不熟悉命令行以及代码的用户来说,可能会有一定的门槛。 ComfyUI 的源码地址在:https://github.com/comfyanonymous/ComfyUI ,安装方法写在了 Readme 中。您也可以按照 Readme 文档进行操作。 如果会 Git 请在 Terminal 运行以下代码: 如果不会用 Git,推荐使用 Github 的客户端(https://desktop.github.com/)拉代码。 下载并安装好 Github Desktop 后,打开该应用。 然后打开 ComfyUI 的 Github 页面(https://github.com/comfyanonymous/ComfyUI),点击右上角的绿色按钮,并点击菜单里的「Open with GitHub Desktop」,此时浏览器会弹出是否要打开 GitHub Desktop,点击「是」。 GitHub Desktop 会让您选择一个保存位置,按需调整,然后点击确定。看到下方特定界面,意味着完成了代码同步。 2. 安装包安装: 这种方法安装比较简单,下载就能用。 ComfyUI 的官方安装包:目前仅支持 Windows 系统,且显卡必须是 Nivida。下载地址是:https://github.com/comfyanonymous/ComfyUI/releases ,只需下载最新的版本,解压就能使用。 安装完成后: 1. 节点存放目录:comfyUI 的节点包括后面安装的拓展节点都存放在本目录下:D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\custom_nodes 2. 模型存放目录: 大模型:D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\models\\checkpoints Lora:D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\models\\loras Vae:D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\models\\vae 3. 模型共用:已经安装了 SDWebUI 的同学可以通过修改文件路径和 WebUI 共用一套模型即可,这样就不用重复下载模型了。找到您已经安装好的 ComfyUI 目录文件下的 extra_model_paths.yaml.example 文件,将后缀.example 删除,然后右键用记事本打开。 希望以上内容对您有所帮助。
2025-04-10
人物一致性
Midjourney 的角色一致性功能: 功能介绍:类似于“风格参考”功能,尝试使人物与“人物参考”图像相匹配。 使用方法:在提示词后输入`cref URL`并附上一个人物图像的 URL。需注意一定要在提示词后面,否则会报错。可以使用`cw`来修改参考“强度”,从 100 到 0。强度 100(`cw 100`)是默认值,会使用面部、头发和衣服;强度 0(`cw 0`)时,只会关注面部(适合改变服装/发型等)。 实际效果:例如以甜茶或小公主的图片为案例,不同的强度参数下,发型、衣服等会有相应变化。 相关优势:能节省工期,提升生产管线的可控性。 其他应用:利用 MJ 重绘功能,在重绘提示词里输入`cref cw`保证角色一致性。对于生成图中的黑边,可框住黑边部分重绘输入关键词“background”去除,保证背景一致。 体验网址:MJ 的网页版体验较好,网址为 https://alpha.midjourney.com/
2025-03-29
星流ai人物一致性
以下是关于星流 AI 人物一致性的相关内容: 在实现角色一致性方面,有以下几种方法和示例: 1. 可以通过特定的 prompt 格式来实现,公式为:发型+年龄性别+衣物颜色+环境+其他(动作、镜头等)。例如: 特写一个棕色卷发,身穿棕褐色上衣的小男孩,正对镜头,面部被烛光照亮,表情惊讶,环境昏暗明暗对比强烈。 特写一个棕色卷发,身穿棕褐色上衣的小男孩,侧对镜头,微微仰头走在一片暗绿色的森林中,面部被手中提着的油灯照亮,环境昏暗明暗对比强烈。 一个棕色卷发,身穿棕褐色上衣的小男孩侧对镜头,看着面前桌上的蜡烛,环境昏暗明暗对比强烈。 中景拍摄一个棕色卷发,身穿棕褐色上衣的小男孩,正对镜头,在一个梦幻感的暖色调房间里,全身贯注地拼装面前的积木玩具。 2. Midjourney 推出了角色一致性功能,同步支持 MJ V6 和 Niji V6。跟之前的风格一致性sref 命名基本一致,为cref。cref 背后参数cw 的值可以从 0 设到 100,cw 100 会参考原图的脸部、头发和衣服,但相应的会非常不吃 Prompt;cw 0 时,就只会参考脸部,大概约等于一个换脸。 3. PixVerse 有“角色(Character)”新功能,能实现 AI 生成视频中的角色保持一致。用户只需单击“Character”功能,上传符合要求的图像,点击创建自定义角色,训练一个新角色,然后可使用自定义角色生成视频,可在 AI 生成视频中轻松切换场景,同时保持同一角色身份。该功能目前只支持真实人脸,暂不支持动物或其他风格照片。操作说明:在主页面点击选择“Character”,点击“Create Character”,在此界面通过点击或拖动的方式上传图片,命名您创建的 Character,最后点击“Create Cha”。提示:最好使用包含真实人脸的单人图片效果最佳,脸部大小需要超过 200×200px,面部无遮挡。Character 添加完毕后,等待 20 秒左右,在看到“Success”提示后,点击“Create”进。若未等到“Success”提示便进入创作界面,会找不到创建的 Character,此时需等待 10 30 秒,待 Character 创建完成即可。 相关网址: 1. 2. 3. Midjourney 网页版:https://alpha.midjourney.com/ 4. PixVerse:https://app.pixverse.ai/ (目前可以免费使用)
2025-03-18
人物一致性
Midjourney 的角色一致性功能: 此功能是官方推出的重要功能,可使生成的人物与参考图像相匹配。 使用方法:在提示词后输入 `cref URL` 并附上人物图像的 URL。需注意一定要在提示词后面,否则会报错。 可使用 `cw` 来修改参考强度,从 0 到 100。强度 100(`cw 100`)是默认值,会使用面部、头发和衣服;强度 0(`cw 0`)时,只会关注面部(适合改变服装/发型等)。 该功能同步支持 MJ V6 和 Niji V6。 对于保证角色一致性,可利用 MJ 重绘功能,在重绘提示词里输入 `cref cw` 。 若有黑边问题,可将黑边部分框住,重绘输入关键词 `background` 去除黑边保证背景一致。 体验 MJ 网页版效果较好,网址:https://alpha.midjourney.com/
2025-03-18
comfy ui 九宫格生图保持人物一致性的原理
Comfy UI 九宫格生图保持人物一致性的原理主要基于 PuLID 技术,具体如下: PuLID 是一种用于在文本生成图像时自定义图像中人物或物体身份(ID)的新技术,它结合了两个不同的模型分支(Lightning T2I 分支和标准扩散模型),引入了两种损失(对比对齐损失和精确 ID 损失)。 Lightning T2I 分支是一个快速、高效的文本到图像生成模型。 标准扩散模型是常见的、生成高质量图像的模型。 对比对齐损失帮助模型学习将输入的文本和生成的图像内容对齐,使生成的图像更符合文本描述。 精确 ID 损失确保生成的图像中的特定身份特征(比如人物的脸部特征)与目标 ID 一致。 此外,在保持人物一致性方面,还有一些操作步骤: 生成图像(提示词加入分割描述,让一张图生成多张同空间小图)。 通过目标图像不断的重复生成,获取更多一致性的角色图像,下载分类(按照视角不同分类)。 上传图像,调用 prefer option set 命令,先写命令名称(一个视角操作一次),再放入该视角的照片(4 5 张)。 放开角色限制生成图像,在确认好的图像上进行局部重绘,框选头部,在原来的命令下加入—快捷命令名称,确认生成即可。 同时,Eva CLIP 也是相关的技术: Eva CLIP 是一种基于对比学习的视觉文本模型,将文本描述和图像内容映射到一个共享的嵌入空间。 对比学习架构:使用对比学习方法,将图像和文本嵌入到一个共享的空间,通过最大化匹配图像和文本对的相似度,同时最小化不匹配对的相似度,学习到图像和文本之间的关联。 强大的特征提取能力:编码器擅长提取图像中的细节特征,并将其转换为有意义的嵌入向量,用于下游任务。 多模态应用:能够处理图像和文本两种模态,广泛应用于多模态任务中,如生成、检索、标注等。 其应用场景包括图像生成、图像检索、图像标注等。Eva CLIP 编码器通常与深度神经网络结合使用,如卷积神经网络(CNN)用于图像特征提取,Transformer 网络用于处理文本描述。 项目地址:https://github.com/ToTheBeginning/PuLID 相关资源: instant ID 脸部特征抓取得比 pulid 好,放在最后一步重绘,先 pulid,再 instantID https://pan.baidu.com/s/1Tro9oQM85BEH7IQ8gVXKsg?pwd=cycy 工作流与模型地址:https://pan.quark.cn/s/2a4cd9bb3a6b 说明文档:https://xiaobot.net/post/6544b1e8 1d90 4373 94cf 0249d14c73c8 测试案例:
2025-03-17
人物一致性
Midjourney 的角色一致性功能: 此功能类似于“风格参考”,但尝试使人物与“人物参考”图像相匹配。 使用方法:在提示词后输入`cref URL`并附上一个人物图像的 URL。需注意一定要在提示词后面,否则会报错。 可以使用`cw`来修改参考“强度”,从 100 到 0。强度 100(`cw 100`)是默认值,会使用面部、头发和衣服;强度 0(`cw 0`)时,只会关注面部(适合改变服装/发型等)。 该功能同步支持 MJ V6 和 Niji V6。 对于保证角色一致性,可利用 MJ 重绘功能,在重绘提示词里输入`cref cw`。 若有黑边问题,可将黑边部分框住,重绘输入关键词“background”去除黑边,保证背景一致。 体验 MJ 网页版效果更佳,网址:https://alpha.midjourney.com/
2025-03-13
midjourney 一致性
Midjourney 推出了角色一致性功能,以下是相关要点: 1. 该功能在 MJ 一鸽再鸽后终于放出,同步支持 MJ V6 和 Niji V6。 2. 风格一致性、角色一致性、场景一致性是进入生产管线的重要可控性功能,实现难度由低到高。 3. cref 背后参数 cw 的值可从 0 设到 100,cw 100 是默认参数,会参考原图的脸部、头发和衣服,但会非常不吃 Prompt;cw 0 时,就只会参考脸部,约等于一个换脸。 4. 使用方法:在提示词后输入 `cref URL` 并附上一个人物图像的 URL,注意一定要在提示词后面,第一次没注意加在前面会报错。可以使用 `cw` 来修改参考强度,强度 100 是默认值,会使用面部、头发和衣服;强度 0 时,只会关注面部,适合改变服装、发型等。 5. cref 命令适用于单一主题、单一角色的图像。如果计划在场景中添加多个角色,需要使用平移按钮来添加,基于 cref 的多个角色放置到单个画布上的最佳方法是使用平移功能将新的画布与现有画布拼接在一起,每个新画布的部分都将有自己的 cref。使用时需先使用 /settings 将 Remix 打开,然后选择 ,选择将包含第二个字符的图像,然后使用 U 将其从网格中分离出来,寻找蓝色小箭头添加新角色。 6. 您可以仅描述环境、周围环境、背景或情境,Midjourney 将努力将角色融入场景中。如果出现不连贯的结果,可尝试使用更高值的样式化(s),例如 s 800。 7. 体验 MJ 网页版的网址:https://alpha.midjourney.com/
2025-03-11
如果改变照片中人物的表情
要改变照片中人物的表情,可以通过以下几种方式: 1. 在使用 SD 脸部修复插件 After Detailer 时,输入如“伤心、流泪”这样针对表情的正负提示词,人物的表情会进行相应改变。但输入“带着墨镜”可能没有效果。 2. 使用 Magic Brush 工具,选中人物的眉毛、眼睛、嘴唇等部位,通过调节轨迹的方向来实现合理的表情变化。 3. 在 Midjourney V6 中,若遇到无法改变角色脸部等问题,可按照以下步骤排除故障:首先确保写了强有力的提示以建议新的姿势、风格或细节;若角色抗拒被操纵,可能是 cref 图像支配了提示,可通过使用 cw进行处理,尝试将提示与较低的 cref 权重一起使用,如 cw 60,按照特定步骤操作,还可考虑使用 来恢复面部区域。
2025-04-14
我想做视频二创,比如把视频背景换掉,人物上的衣服换掉,请给我推荐一下相关AI工具
以下是为您推荐的一些用于视频二创,如更换视频背景、人物衣服的相关 AI 工具: 1. 山寨版阿里 Animate Anyone 开源:利用图像和视频中的人物姿势来合成动画。Novita AI 开源并提供 API 支持,提供照片和视频即可自动生成动画。 GitHub:https://github.com/novitalabs/AnimateAnyone API:https://novita.ai/playgroundanimateanyone https://x.com/imxiaohu/status/1796191458052944072 2. ViViD 视频虚拟试穿技术:由阿里巴巴开发,可以替换视频中人物的衣服,生成真实自然的视频,支持多种服装类型,在视觉质量、时间一致性和细节保留方面表现优异。 https://x.com/imxiaohu/status/1796019244678906340 3. 在进行视频二创时,若需要更精确的蒙版,比如人物的眼睛或身上的配饰等,可以使用 segment anything 中的 GroundingDINO。启用 GroundingDINO 后,AI 会自动下载模型,也可在没有魔法的情况下到云盘直接下载,放到指定文件目录下“……sdwebuiakiv4.2\\extensions\\sdwebuisegmentanything\\models\\groundingdino”。在检测提示词中输入相关内容,AI 可根据语义分割自动检测并设置好蒙版。还能通过预览箱体得到部分编号进行单一调整。比如给人物换背景时,加载生成的背景蒙版,选择合适的大模型和正向提示词,蒙版模式选择“重绘非蒙版内容”,若有需要还可进行后续细化和 PS 修复。
2025-04-01
如何让一张卡通人物动起来
要让一张卡通人物动起来,可以参考以下几种方法: 1. 使用 AnimateX :类似 Animate Anyone,输入角色图片和参考动作序列,即可实现角色动画,尤其适配拟人化的角色。 2. 借助 Pika : 账号注册:访问完成免费注册。 素材整理: 视频:准备一段视频,可手机实拍,≥5 秒,生成时会自动截取前 5 秒,横屏/竖屏均可(建议 1080p 以上)。 图片:准备一张主体清晰无遮挡的角色图片,生成的视频中将参考此图片的角色并融入视频。 文案思路:提前构思角色动态关键词(如“奔跑/挥手/发光”),也可让模型自由发挥。 3. 运用即梦进行图生视频:只需上传图片至视频生成模块,用简单提示词描绘画面中的动态内容,能生成时长为 3 秒钟的画面,运镜类型可根据剧本中的镜头描绘设置,以随机运镜为主,生成速度可选择慢速。 此外,在制作过程中,还可以像桂大羊的教程那样,通过描绘人物的提示词、上传角色参考图、扣除角色背景以便于进行角色加背景的融合生成时进行垫图操作等方式,提高人物和场景的融合度。
2025-03-30
关于图片生成人物衣服的提示词
以下是关于图片生成人物衣服的一些提示词相关内容: 在使用 Segment Anything 时,启用 GroundingDINO 可自动下载模型,将其放到特定文件目录下,在检测提示词中输入相关内容,如“eye”,可自动检测并设置蒙版。通过预览箱体获取编号,可选择调整单一部分。例如,只想调整左边眼睛,勾选 1 即可。还可给人物换背景,如大模型选择 revAnimated_v122,正向提示词为简单背景、花、国画、工笔,蒙版模式选择“重绘非蒙版内容”。将生成的图片放入图生图中,使用 tile 模型能给人物衣服添加国风元素。 设置模型和提示词时,例如大模型为 ghostmix_v20Bakedvae,正向提示词包含人物特征、服饰等描述,负向提示词包含 EasyNegative、badhandsv5neg 等。生成图片后可进行细节微调。 使用 cutoff 插件时,点击启用后按提示词顺序依次填入颜色提示词,中间用逗号分开,能准确显示颜色。如创建双人物构图,设置好人物形象和提示词,先在不开启插件时生成图片可能有颜色污染,开启插件并输入颜色信息后能保证颜色与提示词的关联性。
2025-03-28
我上传一个ai人物形象,有什么AI能驱动他当做数字人来口播,免费的那种
以下为您介绍一些可以免费驱动 AI 人物形象当做数字人进行口播的工具及使用方法: 1. HEYGEN: 优点:人物灵活,五官自然,视频生成很快。 缺点:中文的人声选择较少。 使用方法: 点击网址注册后,进入数字人制作,选择 Photo Avatar 上传自己的照片。 上传后效果如图所示,My Avatar 处显示上传的照片。 点开大图后,点击 Create with AI Studio,进入数字人制作。 写上视频文案并选择配音音色,也可以自行上传音频。 最后点击 Submit,就可以得到一段数字人视频。 2. DID: 优点:制作简单,人物灵活。 缺点:为了防止侵权,免费版下载后有水印。 使用方法: 点击网址,点击右上角的 Create vedio。 选择人物形象,可以点击 ADD 添加您的照片,或者使用 DID 给出的人物形象。 配音时,可以选择提供文字选择音色,或者直接上传一段音频。 最后,点击 Generate vedio 就可以生成一段视频。 打开自己生成的视频,可以下载或者直接分享给朋友。 3. KreadoAI: 优点:免费(对于普通娱乐玩家很重要),功能齐全。 缺点:音色很 AI。 使用方法: 点击网址,注册后获得 120 免费 k 币,这里选择“照片数字人口播”的功能。 点击开始创作,选择自定义照片。 配音时,可以选择提供文字选择音色,或者直接上传一段音频。 打开绿幕按钮,点击背景,可以添加背景图。 最后,点击生成视频。 4. 剪映: 优势:作为字节跳动旗下的产品,在抖音平台上被广泛应用,海外版 CapCut 也有出色表现。其拥有六大 AI 功能,能在编辑器里完成脚本生成、语音克隆、数字人口播等环节。 下载地址:剪映 制作流程: 打开剪映,添加一个文本到文字轨道,并修改好需要朗读的文字。 点击朗读,并进行声音克隆,剪映的声音克隆现在只用念一句话就可以完成克隆。 克隆完成后,选择喜欢的数字人形象,并把自己的克隆音色换上去。 一键智能生成字幕,再自行调整文字样式并校准。 生成数字人: 在剪映右侧窗口顶部,打开“数字人”选项,选取一位免费的、适合的数字人形象。 当选择一个数字人形象时,软件会马上播放出该数字人的声音。点击右下角的“添加数字人”,就会将选择的数字人添加到当前视频中。 左下角会提示渲染何时完成。然后可以点击预览按钮,查看生成的数字人效果。 增加背景图片: 可以直接删除先前导入的文本内容。 为视频增加背景图片,点击左上角的“媒体”菜单,并点击“导入”按钮,来选择本地的一张图片上传。 点击图片右下角的加号,将图片添加到视频的轨道上(会覆盖数字人)。 点击轨道最右侧的竖线,向右拖拽,直到视频的最后,也就是和视频对齐。
2025-03-27