Chat with Wiki - 视觉模型有哪些

Answer

以下为一些常见的视觉模型：

Sora：符合视觉模型的规模化原则，展示了新兴能力，包括遵循指令、视觉提示工程和视频理解等显著功能。
智谱·AI 开源模型：
- CogAgent-18B：基于 CogVLM-17B 改进的开源视觉语言模型，拥有 110 亿视觉参数和 70 亿语言参数，支持高分辨率图像理解，具备 GUI 图像的 Agent 能力。
- CogVLM-17B：强大的开源视觉语言模型，在多模态权威学术榜单上综合成绩优异。
- Visualglm-6B：开源的支持图像、中文和英文的多模态对话语言模型，整体模型共 78 亿参数。
- RDM：Relay Diffusion Model，级联扩散模型，能从任意给定分辨率的图像快速生成。
ComfyUI IPAdapter 中的图像模型：如 CLIP-ViT-H-14-laion2B-s32B-b79K.safetensors 和 CLIP-ViT-bigG-14-laion2B-39B-b160k.safetensors，下载后需按特定名称命名并放入指定文件夹。

Content generated by AI large model, please carefully verify (powered by aily)

References

视觉模型的规模化定律。有了LLMs的规模化定律，自然会问视觉模型的发展是否遵循类似的规模化定律。最近，Zhai等人[24]展示了，有足够训练数据的ViT模型的性能-计算前沿大致遵循（饱和）幂律。继他们之后，谷歌研究[25]提出了一种高效稳定训练22B参数ViT的方法。结果显示，使用冻结模型产生嵌入，然后在顶部训练薄层可以实现出色的性能。Sora作为一个大型视觉模型（LVM），符合这些规模化原则，揭示了文本到视频生成中的几种新兴能力。这一重大进展强调了LVMs实现类似LLMs所见进步的潜力。新兴能力。LLMs中的新兴能力是在某些规模上——通常与模型参数的大小有关——表现出的复杂行为或功能，这些行为或功能并未被开发者明确编程或预期。这些能力被称为“新兴”，因为它们源于模型在多样化数据集上的全面训练，以及其庞大的参数数量。这种组合使模型能够形成联系并做出超越简单模式识别或死记硬背的推断。通常，这些能力的出现不能通过从小规模模型的性能外推来直接预测。虽然许多LLMs，如ChatGPT和GPT-4，展示了新兴能力，但直到Sora的出现，展示类似能力的视觉模型还很少。根据Sora的技术报告，它是第一个展示确认新兴能力的视觉模型，标志着计算机视觉领域的一个重要里程碑。除了其新兴能力，Sora还展示了其他显著能力，包括遵循指令、视觉提示工程和视频理解。Sora的这些功能方面代表了视觉领域的重大进步，并将在后续部分进行探讨和讨论。

智谱·AI 开源模型列表

[title]智谱·AI开源模型列表[heading2]多模态模型��模态的模型。|模型|介绍|代码链接|模型下载| |-|-|-|-| |CogAgent-18B|基于CogVLM-17B改进的开源视觉语言模型。CogAgent-18B拥有110亿视觉参数和70亿语言参数，支持1120*1120分辨率的图像理解，在CogVLM功能的基础上，具备GUI图像的Agent能力。|[CogVLM & CogAgent](https://github.com/THUDM/CogVLM)|[Huggingface](https://huggingface.co/THUDM/CogVLM)|[魔搭社区](https://modelscope.cn/models/ZhipuAI/cogagent-chat/summary)|[Swanhub](https://swanhub.co/ZhipuAI/cogagent-chat-hf)|始智社区| |CogVLM-17B|强大的开源视觉语言模型（VLM）。基于对视觉和语言信息之间融合的理解，CogVLM可以在不牺牲任何NLP任务性能的情况下，实现视觉语言特征的深度融合。我们训练的CogVLM-17B是目前多模态权威学术榜单上综合成绩第一的模型，在14个数据集上取得了state-of-the-art或者第二名的成绩。||[Huggingface](https://huggingface.co/THUDM/cogvlm-chat-hf)|[魔搭社区](https://modelscope.cn/models/AI-ModelScope/cogvlm-chat/summary)| |Visualglm-6B|VisualGLM-6B是一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于[ChatGLM-6B](https://github.com/THUDM/ChatGLM-6B)，具有62亿参数；图像部分通过训练[BLIP2-Qformer](https://arxiv.org/abs/2301.12597)构建起视觉模型与语言模型的桥梁，整体模型共78亿参数。|[VisuaGLM](https://github.com/THUDM/VisualGLM-6B)|[Huggingface](https://huggingface.co/THUDM/visualglm-6b)|[魔搭社区](https://modelscope.cn/models/ZhipuAI/visualglm-6b/summary)| |RDM|Relay Diffusion Model：级联扩散模型，可以从任意给定分辨率的图像快速生成，而无需从白噪声生成。|[RDM](https://github.com/THUDM/RelayDiffusion)||

ComfyUI IPAdapter

模型下载后,需要严格按照下面的名称命名,为了使用后面的IPAdapter统一加载器(这个很方便)图像处理的模型,这两个模型的区别在于参数量的大小不一样.另外在后续操作时候,也需要做对应的区分,注意IPAdpter模型和IPAdapter预处理的对应[CLIP-ViT-H-14-laion2B-s32B-b79K.safetensors](https://huggingface.co/h94/IP-Adapter/resolve/main/models/image_encoder/model.safetensors),download and rename CLIP-ViT-H-14-laion2B-s32B-b79K.safetensors，下载并重命名[CLIP-ViT-bigG-14-laion2B-39B-b160k.safetensors](https://huggingface.co/h94/IP-Adapter/resolve/main/sdxl_models/image_encoder/model.safetensors),download and rename CLIP-ViT-bigG-14-laion2B-39B-b160k.safetensors，下载并重命名下载后放入/ComfyUI/models/clip_vision这里需要注意的是，clip vison只能编码224x224大小的正方形图片，所以后续使用时候，需要注意下，把图片做一下裁剪，特别是不是正方形的图片。