Chat with Wiki - 有没有视觉识别的模型

Answer

以下是一些视觉识别的模型：

siglip-so400m-patch14-384：由 Google 开发的视觉特征提取模型，负责理解和编码图像内容。工作流程包括接收输入图像、分析图像的视觉内容（如物体、场景、颜色、纹理等）、将这些视觉信息编码成一组特征向量。可在 ComfyUI\models\clip 中下载，若因环境问题，也可在网盘中下载。下载好后，目录的文件包括 image_adapter.pt（适配器），其连接视觉模型和语言模型，优化数据转换。工作流程包括接收来自视觉模型的特征向量、转换和调整这些特征使其适合语言模型处理、进行一些特定任务的优化或微调（如图片到文字）。可通过 https://huggingface.co/spaces/fancyfeast/joy-caption-pre-alpha/tree/main/wpkklhc6 下载，放到 models 的 Joy_caption 文件夹里，若该文件夹不存在，新建一个。
Comfyui IPAdapter 中的图像模型：
- CLIP-ViT-H-14-laion2B-s32B-b79K.safetensors，下载并重命名。
- CLIP-ViT-bigG-14-laion2B-39B-b160k.safetensors，下载并重命名。下载后放入/ComfyUI/models/clip_vision。需要注意的是，clip vison 只能编码 224x224 大小的正方形图片，后续使用时若图片不是正方形，需进行裁剪。

Content generated by AI large model, please carefully verify (powered by aily)

References

ComfyUI JoyCaption提示词反推太强了结合MiniCPM和ollama直接上墙的强还和Flux特别的搭ComfyUI里用起来

模型的下载如果因为环境问题，可以在网盘中下载[heading4]siglip-so400m-patch14-384（视觉模型）[content]siglip由Google开发的视觉特征提取模型，负责理解和编码图像内容。工作流程：a.接收输入图像b.分析图像的视觉内容（如物体、场景、颜色、纹理等）c.将这些视觉信息编码成一组特征向量打开ComfyUI\models\clip，在地址栏输入CMD回车，打开命令行输入下面的命令，拉取模型（需要环境，也可以在网盘里下载）下载好之后，目录的文件[heading4]image_adapter.pt（适配器）[content]连接视觉模型和语言模型，优化数据转换。工作流程：a.接收来自视觉模型的特征向量b.转换和调整这些特征，使其适合语言模型处理c.一些特定任务的优化或微调（如图片到文字）通过https://huggingface.co/spaces/fancyfeast/joy-caption-pre-alpha/tree/main/wpkklhc6下载放到models的Joy_caption文件夹里如果Joy_caption文件夹不存在，就新建一个[heading4]Meta-Llama-3.1-8B-bnb-4bit（语言模型）[content]大型语言模型，负责生成文本描述。工作流程：a.接收经过适配器处理的特征b.基于这些特征生成相应的文本描述c.应用语言知识来确保描述的连贯性和准确性打开ComfyUI\models\LLM，地址栏输入CMD回车在命令行里面输入下面命令下载后的完整目录文件[heading4]

Comfyui IPAdapter

模型下载后,需要严格按照下面的名称命名,为了使用后面的IPAdapter统一加载器(这个很方便)图像处理的模型,这两个模型的区别在于参数量的大小不一样.另外在后续操作时候,也需要做对应的区分,注意IPAdpter模型和IPAdapter预处理的对应[CLIP-ViT-H-14-laion2B-s32B-b79K.safetensors](https://huggingface.co/h94/IP-Adapter/resolve/main/models/image_encoder/model.safetensors),download and rename CLIP-ViT-H-14-laion2B-s32B-b79K.safetensors，下载并重命名[CLIP-ViT-bigG-14-laion2B-39B-b160k.safetensors](https://huggingface.co/h94/IP-Adapter/resolve/main/sdxl_models/image_encoder/model.safetensors),download and rename CLIP-ViT-bigG-14-laion2B-39B-b160k.safetensors，下载并重命名下载后放入/ComfyUI/models/clip_vision这里需要注意的是，clip vison只能编码224x224大小的正方形图片，所以后续使用时候，需要注意下，把图片做一下裁剪，特别是不是正方形的图片。

ComfyUI IPAdapter