Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

在COMFYUI中使用FLUX大模型时,怎么才能让多次生成的人物一致

Answer

在 ComfyUI 中使用 FLUX 大模型让多次生成的人物一致的方法如下:

  • 控制人物在多场景、多个姿势下的一致性有很多方法,课程后期会介绍。
  • 对于多张图输出的显示问题,一次产出多张图在预览窗口目前不能并排显示。
  • Lora 的刷新:将 Lora 丢到文件夹后,多点几次刷新即可,Web UI 中 Lora 库有刷新按钮。

另外,在 Midjourney 中,人物一致性已上线,其操作如下:

  • DavidH 介绍:Hey @everyone @here we're testing a new "Character Reference" feature today This is similar to the "Style Reference" feature, except instead of matching a reference style it tries to make the character match a "Character Reference" image.
  • 具体操作:Type --cref URL after your prompt with a URL to an image of a character. You can use --cw to modify reference 'strength' from 100 to 0. strength 100 (--cw 100) is default and uses the face, hair, and clothes. At strength 0 (--cw 0) it'll just focus on face (good for changing outfits / hair etc).
  • 适用范围:This feature works best when using characters made from Midjourney images. It's not designed for real people / photos (and will likely distort them as regular image prompts do). Cref works similarly to regular image prompts except it 'focuses' on the character traits. The precision of this technique is limited, it won't copy exact dimples / freckles / or tshirt logos. Cref works for both Niji and normal MJ models and also can be combined with --sref Advanced Features. You can use more than one URL to blend the information / characters from multiple images like this --cref URL1 URL2 (this is similar to multiple image or style prompts).
  • 网页端操作:How does it work on the web alpha? Drag or paste an image into the imagine bar, it now has three icons. Selecting these sets whether it is an image prompt, a style reference, or a character reference. Shift + select an option to use an image for multiple categories.

在 ComfyUI 中处理模型连接和提示词相关问题,如让两个模型同时起作用的操作:

  • 加入一个新节点,右键点击 - 【新建节点】 - 【实用工具】 - 【Primitive 元节点】。
  • 在文本节点上单击右键,选择【转换文本为输入】,此时文本节点上就多了一个文本的连接点。
  • 将元节点与文本节点相连接,元节点就变成了正向提示词的输入框。同理,可以将负向提示词框也用元节点代替。
  • 再复制出一套正负提示词节点,一套给 base 模型,一套给 refiner 模型。然后,base 模型的那一套输出给第一个采样器节点,refiner 模型的那一套输出给第二个采样器节点。
Content generated by AI large model, please carefully verify (powered by aily)

References

8月13日ComfyUI共学

人物一致性控制:控制人物在多场景、多个姿势下的一致性有很多方法,课程后期会介绍。多张图输出的显示问题:一次产出多张图在预览窗口目前不能并排显示。Lora的刷新:将Lora丢到文件夹后,多点几次刷新即可,Web UI中Lora库有刷新按钮。进阶学习途径:提到一些全球交流频道,如Confii生态大会相关频道。关于图像生成与工作流相关问题的讨论Discord使用问题:Discord已荒废很久,对于相关操作存在疑问。图像输出显示问题:探讨了图像输出是否并排显示,可能因误点单张显示导致,叉掉即可恢复并排。图像放大采样问题:放大后模糊需再次编码,放入采样器重新采样。模型训练与应用:训练自己人像可用于生成脸部头像,图像生成后可加载出视频。节点功能及学习方式:节点功能通过实践和需求寻找尝试,而非死记硬背,可参考优秀工作流和节点开发者的成果,如open art网站上的工作流。关于AI绘图提示词及工作流学习的安排

【ComfyUI】使用ComfyUI玩SDXL的正确打开方式

添加噪波:disable。这里关闭,因为是继承上一个采样器,所以不需要再添加噪声。运行后操作:fixed。相当于锁定随机种子的意思。步数:30。迭代的总步数,和之前保持一致。开始降噪步数:20。传递过来之后,是从第20步开始的。结束降噪步数:30。这个数字也可以保持默认,反正就是运行到结束。返回噪波:disable。不用返回了,到这一步已经结束了。但是,现在问题来了。如果我将refiner的模型连上提示词的话,第一个base模型的链接就会断开,怎么样才能让两个模型同时起作用呢?我们来加入一个新节点,右键点击-【新建节点】-【实用工具】-【Primitive元节点】。这个节点很有意思,它连接谁,就会变成谁的属性。在文本节点上单击右键,选择【转换文本为输入】。此时,文本节点上就多了一个文本的连接点。将元节点与文本节点相连接,这时元节点就变成了正向提示词的输入框。同理,可以将负向提示词框也用元节点代替。再复制出一套正负提示词节点,一套给base模型,一套给refiner模型。然后,base模型的那一套输出给第一个采样器节点,refiner模型的那一套输出给第二个采样器节点。

Midjourney 人物一致性已上线

官方说明和操作:DavidH:Hey @everyone @here we're testing a new"Character Reference"feature today This is similar to the"Style Reference"feature,except instead of matching a reference style it tries to make the character match a"Character Reference"image.How it worksType --cref URL after your prompt with a URL to an image of a characterYou can use --cw to modify reference 'strength' from 100 to 0strength 100(--cw 100)is default and uses the face,hair,and clothesAt strength 0(--cw 0)it'll just focus on face(good for changing outfits / hair etc)What it's meant forThis feature works best when using characters made from Midjourney images.It's not designed for real people / photos(and will likely distort them as regular image prompts do)Cref works similarly to regular image prompts except it 'focuses' on the character traitsThe precision of this technique is limited,it won't copy exact dimples / freckles / or tshirt logos.Cref works for both Niji and normal MJ models and also can be combined with --sref Advanced FeaturesYou can use more than one URL to blend the information /characters from multiple images like this --cref URL1 URL2(this is similar to multiple image or style prompts)How does it work on the web alpha?Drag or paste an image into the imagine bar,it now has three icons.selecting these sets whether it is an image prompt,a style reference,or a character reference.Shift+select an option to use an image for multiple categories Remember,while MJ V6 is in alpha this and other features may change suddenly,but V6 official beta is coming soon.We'd love everyone's thoughts in ⁠ideas-and-features We hope you enjoy this early release and hope it helps you play with building stories and worlds

Others are asking
COMFYUI的好处
ComfyUI 具有以下好处: 1. 对显存要求相对较低,启动速度快,出图速度快。 2. 具有更高的生成自由度。 3. 可以和 webui 共享环境和模型。 4. 可以搭建自己的工作流程,可以导出流程并分享给别人,报错的时候也能清晰的发现错误出在哪一步。 5. 生成的图片拖进后会还原整个工作流程,模型也会选择好。 此外,ComfyUI 采用连线的方式具有独特优势: 1. 可以根据自己的需求搭建适合自己的工作流,而不需要依赖开发者。 2. 可以根据自己的需求,去开发并改造某个节点。 选择 ComfyUI 最核心的原因在于它的自由和拓展,能够让用户自己调整从而切合工作流,甚至改造工作流。在 AI 发展迅猛的时代,保持灵活是其重要特点。
2024-11-04
如何让COMFYUI使用我的INTEL A770显卡?
要让 ComfyUI 使用您的 INTEL A770 显卡,以下是一些相关的步骤和信息供您参考: 首先,ComfyUI 本地安装的方法主要有以下几种: 1. 命令行安装: 如果您已经安装过 SD WebUI,可以跳到第二步。首先需要打开系统 Terminal,不同系统的 Terminal 可能有所不同。 Windows 用户:建议在有 NVIDIA 显卡的电脑上使用。需要下载 Miniconda3,输入相关命令进行安装,然后安装 pytorch 的 nightly 版本。 Mac 用户:安装需要根据电脑芯片不同输入不同代码。下载 Miniconda3 并输入相关命令进行安装,最后安装 pytorch。 2. 安装包安装:仅支持 Windows 系统且显卡必须是 Nivida。下载地址是,下载最新版本解压即可使用。 关于 ComfyUI 的硬件配置: ComfyUI 相比 WebUI 配置更低、系统资源占用更少、出图速度更快,最低可在小于 3G 的 GPU 上运行,甚至没有 GPU 光用 CPU 也可以运行,但速度极慢。SDXL 出来后提高了运行配置,最低需要 8GB 显存+32GB 运行内存,12GB 流畅运行,推荐 16GB 以上。运行内存最低 32GB,越高越好,最低配会经常爆显存。玩 SDwebui 和 ComfyUI 建议使用 6GB 以上的显存的 NVIDIA 显卡,内存在 16G 以上。硬盘会影响加载模型的速度,最好把软件和模型部署在 SSD 上。 需要注意的是,目前 ComfyUI 对于 INTEL A770 显卡的支持情况可能不太明确,您可能需要根据实际情况进行尝试和调整。
2024-10-10
我想要COMFYUI的文档
以下是关于 ComfyUI 的一些文档和学习资源: 1. ComfyUI 官方文档:提供了使用手册和安装指南,适合初学者和有经验的用户。网址:https://www.comfyuidoc.com/zh/ 2. 优设网:有详细的 ComfyUI 入门教程,适合初学者,介绍了特点、安装方法及生成图像等内容。网址:https://www.uisdc.com/comfyui3 3. 知乎:有用户分享了 ComfyUI 的部署教程和使用说明,适合有一定基础并希望进一步了解的用户。网址:https://zhuanlan.zhihu.com/p/662041596 4. Bilibili:提供了一系列涵盖从新手入门到精通各个阶段的视频教程。网址:https://www.bilibili.com/video/BV14r4y1d7r8/ 此外,ComfyUI 从 github 上下载作者部署好环境和依赖的整合包,按照官方文档安装即可,网址:https://github.com/comfyanonymous/ComfyUI 。还有一篇本地部署 ComfyUI 上手指南,原文网址:https://mp.weixin.qq.com/s/7ZO9AXvzjwohyNOXTe1x8A 。 内容由 AI 大模型生成,请仔细甄别。
2024-10-02
Way to AGI里所有COMFYUI工作流
以下是关于 ComfyUI 工作流的相关内容: 打开节点树的列表,可以看到文生图、图生图以及 ControlNet 等常见工作流。选择文生图,会有更细化的预设工作流选项,ControlNet 中也有工作流预设,还有根据插件整理的丰富工作流。例如可选择“文生图”中的“基础+自定 VAE”,选好后点击“替换节点树”,界面会出现已连接好的工作流节点,包括大模型、clip、vae、正反提示词、尺寸、采样器等熟悉的参数,且是中文面板。不了解操作的可参考上一篇【ComfyUI】本地部署 ComfyUI 上手指南。 国内的 ComfyUI 工作流网站有: eSheep 电子羊 AIGC 社区 https://www.esheep.com/app ,主页点击工作流/应用分区,即可浏览、下载或在线运行各类工作流。 AIGODLIKE https://www.aigodlike.com/ ,下拉选取“ComfyUI 奥术”,即可查看其他用户上传的 ComfyUI 生成图片,保存或复制参数皆可读取到图片中的工作流。 在完成准备工作后运行 ComfyUI,默认版本不支持模型版本和 node 管理,需安装 ComfyUI Manager 插件。工作流下载好后,可使用 ComfyUI 菜单的 load 功能加载,点击菜单栏「Queue Prompt」开始视频生成,通过工作流上的绿色框查看运行进度,最后在 ComfyUI 目录下的 output 文件夹查看生成好的视频。若生成视频时出现显存溢出问题,请另行处理。
2024-09-13
COMFYUI 翻译节点 速度慢
ComfyUI 共学中提到了翻译节点的相关内容。其中提到翻译节点速度慢的情况,同时介绍了两个可将中文翻译为英文的节点,一个是 Web UI 中的,另一个是 Max live 开发团队的,后者还能补充提示词。此外,还讲解了 ComfyUI 在运行速度上的优势,比如与 webUI 相比,出图质量基本一样但运行速度更高效。
2024-08-23
FLUX模型训练
以下是关于 Flux 的 Lora 模型训练的详细步骤: 1. 模型准备: 下载所需模型,包括 t5xxl_fp16.safetensors、clip_l.safetensors、ae.safetensors、flux1dev.safetensors。 注意:不使用时模型存放位置不限,但要知晓路径;训练时建议使用 flux1dev.safetensors 和 t5xxl_fp16.safetensors 版本。 2. 下载脚本: 夸克网盘链接:https://pan.quark.cn/s/ddf85bb2ac59 百度网盘链接:https://pan.baidu.com/s/1pBHPYpQxgTCcbsKYgBi_MQ?pwd=pfsq 提取码:pfsq 3. 数据集准备: 建议使用自然语言,与之前 SDXL 的训练类似。 数据集存放位置:.Flux_train_20.4\\train\\qinglong\\train 。 若未准备数据集,此路径中有试验数据集可直接使用。 4. 运行训练:约 1 2 小时即可完成训练。 5. 验证和 lora 跑图:若有 comfyUI 基础,在原版工作流的模型后面,多加一个 LoraloaderModelOnly 的节点,自行选择 Lora 并调节参数。 6. 修改脚本路径和参数: 若显卡为 16G,右键 16G 的 train_flux_16GLora 文件;若显卡为 24G 或更高,右键 24G 的 train_flux_24GLora 文件。 用代码编辑器打开,理论上只需修改红色部分,包括底模路径、VAE 路径、数据集路径、clip 路径和 T5xxl 路径。注意路径格式,避免错误。蓝色部分为备注名称,可改可不改。建议经验丰富后再修改其他深入参数,并做好备份管理。
2025-01-20
FLUX低显存怎么安装
如果您的显存较低,安装 FLUX 可以参考以下步骤: 1. NF4 模型下载: 链接:https://huggingface.co/lllyasviel/flux1devbnbnf4/blob/main/flux1devbnbnf4.safetensors 放置位置:ComfyUI/models/checkpoint/中(不像其他 Flux 模型那样放置在 UNET 中) NF4 配套节点插件:git clone https://github.com/comfyanonymous/ComfyUI_bitsandbytes_NF4.git 2. GGUF 模型下载: 链接:Flux GGUF 模型:https://huggingface.co/city96/FLUX.1devgguf/tree/main GGUF 配套节点插件:GGUF 节点包:https://github.com/city96/ComfyUIGGUF 值得一提的是在最新版本的 ComfyUI 中,GGUF 的节点插件可以在 Manager 管理器中搜到下载安装,NF4 的配套节点插件则搜不到。 3. 对于 8G 以下显存的方案: flux1devbnbnf4.safetensors 放入 ComfyUI\\models\\checkpoints 文件夹内。 ComfyUI_c_NF4 节点:https://github.com/comfyanonymous/ComfyUI_bitsandbytes_NF4 注:如果报错,请更新 BitsandBytes 库。下载放入解压后 ComfyUI\\custom_node 文件夹内,重启 ComfyUI,如果之前没更新,更新后再重启。 相关资源链接: BitsandBytes Guidelines and Flux:https://github.com/lllyasviel/stablediffusionwebuiforge/discussions/981 ComfyUI_bitsandbytes_NF4 节点:https://github.com/comfyanonymous/ComfyUI_bitsandbytes_NF4 flux1devbnbnf4.safetensors:https://huggingface.co/lllyasviel/flux1devbnbnf4/blob/main/flux1devbnbnf4.safetensors 注意使用精度优化的低配模型的话,工作流和原版是不一样的。自己改的话就是把上面官方的这个 fp8 的工作流,只需把底模的节点换成 NF4 的或者 GUFF 的即可。相关生态发展很快,有 Lora、Controlnet、IPadpter 相关生态建设非常速度,以及字节最近发布的 Flux Hyper lora 是为了 8 步快速生图。
2025-01-09
comy UI FLUX 低显存
ComfyUI FLUX 低显存运行的相关内容如下: 工作流: 目的是让 FLUX 模型能在较低的显存情况下运行。 分阶段处理思路: 先使用 Flux 模型在较低分辨率下进行初始生成以提高效率。 采用两阶段处理,先用 Flux 生成,后用 SDXL 放大,有效控制显存的使用。 使用 SD 放大提升图片质量。 工作流的流程: 初始图像生成(Flux): UNETLoader:加载 flux1dev.sft 模型。 DualCLIPLoader:加载 t5xxl 和 clip_l 模型。 VAELoader:加载 fluxae.sft。 CLIPTextEncode:处理输入提示词。 BasicGuider 和 RandomNoise:生成初始噪声和引导。 SamplerCustomAdvanced:使用 Flux 模型生成初始图像。 VAEDecode:解码生成的潜在图像。 初始图像预览:PreviewImage 显示 Flux 生成的初始图像。 图像放大和细化(SDXL): CheckpointLoaderSimple:加载 SDXL 模型(fenrisxl_SDXLLightning.safetensors)。 UpscaleModelLoader:加载 RealESRGAN_x4.pth 用于放大。 VAELoader:加载 sdxl_vae.safetensors。 ImageSharpen:对初始图像进行锐化处理。 UltimateSDUpscale:使用 SDXL 模型和放大模型进行最终的放大和细化。 最终图像预览:PreviewImage 显示最终放大和细化后的图像。 FLUX 模型的选择: 用半精度 fp8 dev 版本(能用单精度 dev 版本的尽量用),也适合 fp8 的 T8 模型,降低对内存的占用。 记得把 weight dtype 也设置为 fp8,降低对显存的使用。 建议:先关闭高清放大部分,等跑出来效果满意的图片后,再开启放大。 ComfyUI 简介: 是一个基于节点流程式的 stable diffusion AI 绘图工具 WebUI,可以想象成集成了 stable diffusion 功能的 substance designer,通过将 stable diffusion 的流程拆分成节点,实现更加精准的工作流定制和完善的可复现性。 优势: 对显存要求相对较低,启动速度快,出图速度快。 具有更高的生成自由度。 可以和 webui 共享环境和模型。 可以搭建自己的工作流程,可以导出流程并分享给别人,报错的时候能清晰发现错误出在哪一步。 生成的图片拖进后会还原整个工作流程,模型也会选择好。 劣势: 操作门槛高,需要有清晰的逻辑。 生态没有 webui 多(常用的都有),也有一些针对 Comfyui 开发的有趣插件。 官方链接:从 github 上下载作者部署好环境和依赖的整合包,按照官方文档安装即可:https://github.com/comfyanonymous/ComfyUI
2025-01-08
FLUX stable diffusion
以下是关于 FLUX stable diffusion 的相关信息: ComfyUI 的生图原理:ComfyUI 使用预训练的扩散模型作为核心,包括 FLUX 等模型。在节点化界面中,用户可通过不同模块控制潜在空间操作、UNet 中的推理步骤及条件输入。 稳定扩散的运作:稳定扩散通过逐步去除图像中的噪点来生成艺术作品,它了解世界和书面语言以指导噪点消除过程。 Flux 工具: 制作团队:原 stable diffusion 核心团队因开源理念不合,成立“黑森林”团队,推出 Flux。 型号:首次发布三种型号,包括 Flux pro(闭源使用)、Flux dev(开源,供学习研究,不支持商用)、Flux schnell(开源,开源最彻底,支持商用)。 参数量:参数训练量达 12B,语言支持自然语言。相比之下,SD3 Large 训练参数 8B,SD3 Medium 训练参数 2B。 硬件要求:推理 dev 版本的 Flux 模型时,最低显存需要 16G,建议 24G,模型本身大小约 22G。训练时,优化后 16G 可训练 Lora 模型,DB 方式训练微调模型除显存最低 24G 外,内存需 32G 以上。
2024-11-29
怎么用FLUX创作艺术作品
以下是使用 FLUX 创作艺术作品的方法: 1. 艺术风格 Lora 方面: 可选择如“art_lora 艺术风格”,其特点包括“Cat,European street,exploration,cozy,mysterious,colorful buildings,sunlight through leaves,cobblestone path,high definition,watercolor painting,warm tones,bright lighting effects,paper texture”。Lora 下载地址为:https://hfmirror.com/Kijai/fluxlorascomfyui/tree/main/xlabs 。 还有“FLUX超写实黑悟空V1”等风格,详情可点击:https://www.liblib.art/modelinfo/5e4a4cc0e3674818a9f8454a63cc0115?from=pic_detail 。 XLabsAI 发布了 6 个不同 Lora,包括“mjv6_lora Midjourney 风格”“realism_lora 写实风格”“anime_lora 动漫风格”“disney_lora 迪斯尼风格”“scenery_lora 风景风格”,并提供了相应示例。 2. Lora 使用方法: 下载 lora 文件。 放入 comfy/models/loras 文件夹内。 使用 ComfyUI 工作流(其实就是上面文生图基础工作流加上一个简易 Lora 加载器),加载您需要的 Lora 风格。工作流文件如“flux1+lora 加载.json”,可通过 https://bytedance.feishu.cn/space/api/box/stream/download/all/KZoGbKe3yo4YHgxnNg6cELfPnwg?allow_redirect=1 下载。 3. 教程参考: 。 4. 示例作品:大家可以在哩布的返图区找到更多灵感,群友作品包括鹏程、海波、CYCHENYUE 等。
2024-10-27
webui可以用FLUX模型吗
WebUI 可以使用 FLUX 模型。以下是相关的下载和使用信息: ae.safetensors 和 flux1dev.safetensors 下载地址:https://huggingface.co/blackforestlabs/FLUX.1dev/tree/main 。 flux 相关模型(体积较大)的夸克网盘链接:https://pan.quark.cn/s/b5e01255608b 。 flux 相关模型(体积较大)的百度网盘链接:https://pan.baidu.com/s/1mCucHrsfRo5SttW03ei0g?pwd=ub9h 提取码:ub9h 。 如果 GPU 性能不足、显存不够,底模可以使用 fp8 的量化版模型,下载地址:https://huggingface.co/Kijai/fluxfp8/tree/main 。 下载 dev 的工作流: 或者官方原版的图片链接 https://comfyanonymous.github.io/ComfyUI_examples/flux/flux_dev_example.png ,打开 ComfyUI,把工作流或图片拖拽到 ComfyUI 里。 郑敏轩的 Flux 的 controlnet 系列中 TheMisto.ai 的 MistoLine 版: 注意:该 ControlNet 与 Flux1.dev 的 fp16/fp8 以及使用 Flux1.dev 量化的其他模型兼容。 需要节点(可以 git clone 方式下载或通过以下网盘): 夸克网盘:链接:https://pan.quark.cn/s/ad43dd5152a6 。 百度网盘:链接:https://pan.baidu.com/s/1NcOdG4AV68xTup8FvphsYA?pwd=lpvc 提取码:lpvc 。 模型: 夸克网盘:链接:https://pan.quark.cn/s/5551e813db21 。 百度网盘:链接:https://pan.baidu.com/s/1Ntf4MbTCGJ5TYDv6mgvqNQ?pwd=zhfq 提取码:zhfq 。 处理:将模型放到 ComfyUI\\models\\TheMisto_model 文件夹中。 导入官方工作流 。所需要的两个模型:
2024-10-25
大模型的系统提示词
大模型的系统提示词主要包括以下方面: 1. 在“五津:一键生成‘摸鱼打工猫’视频”中,针对用户选择的主题和回答,总结用户的创作意图,如“打工猫摸鱼的 2 小时,在巴厘岛能看一场日落”,并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词,以数组形式输出到“tishici”,将用户意图输出到“biaoti”。 2. 在“云中江树:智能对决:提示词攻防中的 AI 安全博弈”中,系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意;模型侧对于有能力的厂商应增强安全性并平衡性能,开发者则要在开发中带着安全意识优化系统提示词,加入安全引导和禁止内容等;输出侧可使用传统防御和内容过滤手段,并针对大模型特点进行私有数据泄露等检查。此外,还提到间接注入和提示词泄露的情况,间接注入常发生在应用获取依赖外部数据资源时,攻击者通过隐藏恶意指令完成攻击;提示词泄露指试图操纵模型输出获取部分或全部系统提示词,大模型输出内容可分为系统提示词、用户提示和助手提示词三段,通过攻击手段可获取系统提示词。
2025-04-18
通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash,这3个视觉理解大模型哪个最厉害?
以下是对通义千问 Qwen2.5VL 模型的介绍: 版本:有 3B、7B 和 72B 三个尺寸版本。 主要优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai 然而,对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型,目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容,因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看,其在视觉理解方面具有较强的能力和优势。
2025-04-15
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
目前全世界最厉害的视频视觉理解大模型是哪个
目前全世界较为厉害的视频视觉理解大模型有以下几个: 1. 昆仑万维的 SkyReelsV1:不仅支持文生视频、图生视频,是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元:语义理解能力出色,能精准还原复杂的场景和动作,如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5:全球最快的 AI 视频生成模型,Turbo 模式下可在 10 秒内生成视频,最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能,具备顶尖动漫生成能力。
2025-04-15
目前全世界最厉害的视觉理解大模型是哪个
目前在视觉理解大模型方面,较为突出的有 DeepSeek 的 JanusPro 模型,它将图像理解和生成统一在一个模型中;还有通义千问的视觉理解模型,其价格有较大降幅。此外,Pixverse V3.5 是全球最快的 AI 视频生成模型,在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型,因为这取决于不同的评估标准和应用场景。
2025-04-15
大模型对话产品的优劣
大模型对话产品具有以下优点: 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验,具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接,产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务,适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景,如私有领域知识问答、个性化聊天机器人、智能助手等。 大模型对话产品也存在一些缺点: 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情,全靠用户脑补,导致用户上头期短,疲劳度高,长期留存低。 3. 无法回答私有领域问题(如公司制度、人员信息等)。 4. 无法及时获取最新信息(如实时天气、比赛结果等)。 5. 无法准确回答专业问题(如复杂数学计算、图像生成等)。
2025-04-14
生成提示词的提示词
以下是关于生成提示词的相关内容: 生成提示词的思路和方法: 可以根据效果好的图片中的高频提示词去反推效果,结合不同字体效果的描述,打包到一组提示词中。提示词给到 AI 后,AI 会根据给定文字的文义,判断适合的情绪风格,然后给出适合情绪的字体和风格描述、情感氛围等,加上一些质量/品质词,形成输出提示词结构。为了让 AI 更能描述清晰风格,可以先给定多种参照举例。 具体操作步骤: 打开 AI 工具的对话框,将相关提示词完整复制粘贴到对话框。推荐使用 ChatGPT 4o。 当 AI 回复后,发送您想要设计的文字。可以仅发送想要的文字,也可以发送图片(适合有多模态的 AI)让 AI 识别和反推。 将 AI 回复的提示词部分的内容复制到即梦 AI。 对生成提示词的一些观点: 提示词生成提示词并非必要,不一定能生成最好的 Prompt 框架,修改过程可能耗时且不一定能修改好,不如花钱找人写。 一句话生成完整符合需求的 Prompt 非常困难,只能大概给出框架和构思,需要更低成本地调整需求和修改 Prompt。 不同生图工具生成提示词的特点: 即使是简短的描述,生成的提示词也非常细节、专业。 会解析需求,找出核心要点和潜在的诠释点,并给出不同的提示词方案。 提示词构建更多在于增强,而不是发散,生成的内容更符合期望。 同时生成中、英双版本,国内外工具通用无压力。 14 款 AI 生图工具实测对比: 本次实测用到的工具包括国内版的即梦 3.0(https://jimeng.jianying.com/aitool/home)、WHEE(https://www.whee.com)、豆包(https://www.doubao.com/chat)、可灵(https://app.klingai.com/cn/texttoimage/new)、通义万相(https://tongyi.aliyun.com/wanxiang/creation)、星流(https://www.xingliu.art)、LibiblibAI(https://www.liblib.art),以及国外版的相关工具。
2025-04-20
有没有能根据描述,生成对应的word模板的ai
目前有一些可以根据描述生成特定内容的 AI 应用和方法。例如: 在法律领域,您可以提供【案情描述】,按照给定的法律意见书模板生成法律意见书。例如针对商业贿赂等刑事案件,模拟不同辩护策略下的量刑结果,对比并推荐最佳辩护策略,或者为商业合同纠纷案件设计诉讼策略等。 在 AI 视频生成方面,有结构化的提示词模板,包括镜头语言(景别、运动、节奏等)、主体强化(动态描述、反常组合等)、细节层次(近景、中景、远景等)、背景氛围(超现实天气、空间异常等),以及增强电影感的技巧(加入时间变化、强调物理规则、设计视觉焦点转移等)。 一泽 Eze 提出的样例驱动的渐进式引导法,可利用 AI 高效设计提示词生成预期内容。先评估样例,与 AI 对话让其理解需求,提炼初始模板,通过多轮反馈直至达到预期,再用例测试看 AI 是否真正理解。 但需要注意的是,不同的场景和需求可能需要对提示词和模板进行针对性的调整和优化,以获得更符合期望的 word 模板。
2025-04-18
如何自动生成文案
以下是几种自动生成文案的方法: 1. 基于其它博主开源的视频生成工作流进行优化: 功能:通过表单输入主题观点,提交后自动创建文案短视频,创建完成后推送视频链接到飞书消息。 涉及工具:Coze 平台(工作流、DeepSeek R1、文生图、画板、文生音频、图+音频合成视频、多视频合成)、飞书(消息)、飞书多维表格(字段捷径、自动化流程)。 大体路径:通过 coze 创建智能体,创建工作流,使用 DeepSeek R1 根据用户观点创建文案,再创建视频;发布 coze 智能体到飞书多维表格;在多维表格中使用字段捷径,引用该智能体;在多维表格中创建自动化流程,推送消息给指定飞书用户。 2. 生成有趣的《图文短句》: 实现原理: 先看工作流:包括第一个大模型生成标题、通过“代码节点”从多个标题中获取其中一个(可略过)、通过选出的标题生成简介、通过简介生成和标题生成文案、将文案进行归纳总结、将归纳总结后的文案描述传递给图像流。 再看图像流:包括提示词优化、典型的文生图。 最终的 Bot 制作以及预览和调试。 3. 腾讯运营使用 ChatGPT 生成文案: 步骤:通过 ChatGPT 生成文案,将这些文案复制到支持 AI 文字转视频的工具内,从而实现短视频的自动生成。市面上一些手机剪辑软件也支持文字转视频,系统匹配的素材不符合要求时可以手动替换。例如腾讯智影的数字人播报功能、手机版剪映的图文成片功能。这类 AI 视频制作工具让普罗大众生产视频变得更轻松上手。
2025-04-15
如何通过输入一些观点,生成精彩的口播文案
以下是通过输入观点生成精彩口播文案的方法: 1. 基于其它博主开源的视频生成工作流进行功能优化,实现视频全自动创建。 效果展示:可查看。 功能:通过表单输入主题观点,提交后自动创建文案短视频,并将创建完成的视频链接推送至飞书消息。 涉及工具:Coze平台(工作流、DeepSeek R1、文生图、画板、文生音频、图+音频合成视频、多视频合成)、飞书(消息)、飞书多维表格(字段捷径、自动化流程)。 大体路径: 通过 coze 创建智能体,创建工作流,使用 DeepSeek R1 根据用户观点创建文案,再创建视频。 发布 coze 智能体到飞书多维表格。 在多维表格中使用字段捷径,引用该智能体。 在多维表格中创建自动化流程,推送消息给指定飞书用户。 2. 智能体发布到飞书多维表格: 工作流调试完成后,加入到智能体中,可以选择工作流绑定卡片数据,智能体则通过卡片回复。 选择发布渠道,重点是飞书多维表格,填写上架信息(为快速审核,选择仅自己可用),等待审核通过后即可在多维表格中使用。 3. 多维表格的字段捷径使用: 创建飞书多维表格,添加相关字段,配置后使用字段捷径功能,使用自己创建的 Coze 智能体。 表单分享,实现填写表单自动创建文案短视频的效果。 4. 自动化推送:点击多维表格右上角的“自动化”,创建所需的自动化流程。 另外,伊登的最新 Deepseek+coze 实现新闻播报自动化工作流如下: 第一步是内容获取,只需输入新闻链接,系统自动提取核心内容。开始节点入参包括新闻链接和视频合成插件 api_key,添加网页图片链接提取插件,获取网页里的图片,以 1ai.net 的资讯为例,添加图片链接提取节点,提取新闻主图,调整图片格式,利用链接读取节点提取文字内容,使用大模型节点重写新闻成为口播稿子,可使用 Deepseek R1 模型生成有吸引力的口播内容,若想加上自己的特征,可在提示词里添加个性化台词。
2025-04-15
小红书图文批量生成
以下是关于小红书图文批量生成的详细内容: 流量密码!小红书万赞英语视频用扣子一键批量生产,这是一个保姆级教程,小白都能看得懂。 原理分析: 决定搞之后,思考生成这种视频的底层逻辑,进行逆推。这种视频由多张带文字图片和音频合成,带文字图片由文字和图片生成,文字和图片都可由 AI 生成,音频由文字生成,文字来源于图片,也就是说,关键是把图片和文字搞出来。 逻辑理清后,先找好看的模版,未找到好看的视频模版,最后看到一个卡片模版,先把图片搞出来,才有资格继续思考如何把图片变成视频,搞不出来的话,大不了不发视频,先发图片,反正图片在小红书也很火。 拆模版: 要抄这种图片,搞过扣子的第一反应可能是用画板节点 1:1 去撸一个,但扣子的画板节点很难用,Pass 掉。用 PS 不行,太死板不灵活,html 网页代码可以,非常灵活。经过 2 个多小时和 AI 的 battle,用 html 代码把图片搞出来了。这里不讲代码怎么写,直接抄就行。要抄,首先要学会拆,不管用什么方式批量生成这样的图片,都必须搞清楚里面有哪些是可以变化的参数,也就是【变量】,如主题、主题英文、阶段、单词数、图片、正文、翻译、普通单词、重点单词等。 想方法: 大概知道批量生成这样的图片需要搞清楚哪些参数,图片用 html 代码搞出来了。但问题是视频怎么搞,这种视频由多张不同的【带文字的图片】生成,比如读到哪句,哪句就高亮起来,图片也可以随着读到的句子变更。最后,视频就是用这样的图片一张张拼起来的。
2025-04-14
ai如何什么生成表格
AI 生成表格通常可以通过以下技术实现: 1. 利用变分自编码器(VAEs)和序列到序列模型(Seq2Seq)等技术生成表格文件、表格公式,并清理、创建、转换和分析表格中的文本数据,例如表格结构设计、数据分析表、表格自动化等。 2. 借助一些办公软件中的 AI 插件,如飞书中的相关插件,先通过 AI 理解图片中的内容并填充到表格列中,然后利用自带插件总结生成相关指令。 此外,在多模态数据生成中,结构化数据生成包括表格生成,多模态合成数据从大类来看有非结构化数据(图片、视频、语音等)和结构化数据(表格等)两大类。非结构化数据生成包括文本生成、图像生成、音频和语音生成、视频生成、3D 生成、合成数据生成等。
2025-04-14