Chat with Wiki - 多模态agent

Answer

以下是关于多模态 agent 的相关信息：

智谱·AI 开源模型列表中的多模态模型：

CogAgent-18B：基于 CogVLM-17B 改进的开源视觉语言模型，拥有 110 亿视觉参数和 70 亿语言参数，支持 1120*1120 分辨率的图像理解，在 CogVLM 功能的基础上，具备 GUI 图像的 Agent 能力。代码链接：CogVLM&CogAgent，模型下载：Huggingface、魔搭社区、Swanhub、始智社区。
CogVLM-17B：强大的开源视觉语言模型（VLM），基于对视觉和语言信息之间融合的理解，在多模态权威学术榜单上综合成绩优异。代码链接：Huggingface，模型下载：魔搭社区。
Visualglm-6B：开源的支持图像、中文和英文的多模态对话语言模型，语言模型基于[ChatGLM-6B]，具有 62 亿参数；图像部分通过训练[BLIP2-Qformer]构建起视觉模型与语言模型的桥梁，整体模型共 78 亿参数。代码链接：VisuaGLM，模型下载：Huggingface、魔搭社区。

Han 中提到的 AppAgent：让 AI 模仿人类在手机上操作 APP，通过其模仿能力不断提升，对于之后模仿数据的反利用也有不错的应用场景，例如互联网或 AI 或涉及到原型+UE 的工作都可以在基于模仿数据的基础上进行反推，进而让设计出的产品原型和 UE 交互更优解。AppAgent 可以通过自主学习和模仿人类的点击和滑动手势，能够在手机上执行各种任务。它是一个基于大语言模型的多模态代理，能够处理和理解多种类型的信息（如文本、图像、触控操作等）。

多智能体（Multi-Agent）：

定义：由多个自主、独立的智能体（Agent）组成的系统。每个智能体都能够感知环境、进行决策并执行任务，同时它们之间可以进行信息共享、任务协调以及协同行动，以实现整体的目标。
关于 Multi-Agent：随着大型语言模型（LLM）的出现，以 LLM 为核心构建的 Agent 系统近期受到广泛关注。目前更常见的框架主要集中在单 Agent 场景下，单 Agent 的核心在于 LLM 与工具的协同配合。同时，越来越多的 Agent 框架开始关注多 Agent 场景，为不同的 Agent 指定不同的角色，并通过协作完成复杂任务。
主要组成部分：
- 环境（environment）：所有 Agent 处于同一个环境中，环境中包含全局状态信息，Agent 与环境之间存在信息的交互与更新。
- 阶段（stage）：为完成复杂任务，现有多 Agent 框架通常采用 SOP 思想，将复杂任务分解为多个子任务。
- 控制器（controller）：可以是 LLM 或预先定义好的规则，主要负责环境在不同 Agent 和阶段之间的切换。
- 记忆：在单 Agent 中，记忆只包括用户、LLM 回应和工具调用结果等部分。而在多 Agent 框架中，由于 Agent 数量增多，导致消息数量增多，同时每条消息可能需要记录发送方、接收方等字段。

Content generated by AI large model, please carefully verify (powered by aily)

References

智谱·AI 开源模型列表

，我们推出了具有视觉和语言双模态的模型。|模型|介绍|代码链接|模型下载||-|-|-|-||CogAgent-18B|基于CogVLM-17B改进的开源视觉语言模型。CogAgent-18B拥有110亿视觉参数和70亿语言参数，支持1120*1120分辨率的图像理解，在CogVLM功能的基础上，具备GUI图像的Agent能力。|[CogVLM&CogAgent](https://github.com/THUDM/CogVLM)|[Huggingface](https://huggingface.co/THUDM/CogVLM)|[魔搭社区](https://modelscope.cn/models/ZhipuAI/cogagent-chat/summary)|[Swanhub](https://swanhub.co/ZhipuAI/cogagent-chat-hf)|始智社区||CogVLM-17B|强大的开源视觉语言模型（VLM）。基于对视觉和语言信息之间融合的理解，CogVLM可以在不牺牲任何NLP任务性能的情况下，实现视觉语言特征的深度融合。我们训练的CogVLM-17B是目前多模态权威学术榜单上综合成绩第一的模型，在14个数据集上取得了state-of-the-art或者第二名的成绩。||[Huggingface](https://huggingface.co/THUDM/cogvlm-chat-hf)|[魔搭社区](https://modelscope.cn/models/AI-ModelScope/cogvlm-chat/summary)||Visualglm-6B|VisualGLM-6B是一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于[ChatGLM-6B](https://github.com/THUDM/ChatGLM-6B)，具有62亿参数；图像部分通过训练[BLIP2-Qformer](https://arxiv.org/abs/2301.12597)构建起视觉模型与语言模型的桥梁，整体模型共78亿参数。|[VisuaGLM](https://github.com/THUDM/VisualGLM-6B)|[Huggingface](https://huggingface.co/THUDM/visualglm-6b)|[魔搭社区](https://modelscope.cn/models/ZhipuAI/visualglm-6b/summary)|

Han：基于现有能力项目应用的思考

|技术名称|应用场景|技术类型|简介|主要特点|工作原理|其他|官方网站|项目及演示|论文|Github|在线体验|附件|最后更新时间||-|-|-|-|-|-|-|-|-|-|-|-|-|-||AppAgent：让AI模仿人类在手机上操作APP|通过appagent的模仿能力不断提升， 对于之后模仿数据的反利用也有不错的应用场景， 例如互联网或AI或涉及到原型+UE的工作都可以在基于模仿数据的基础上进行反推， 进而让设计出的产品原型和UE交互更优解。|AI学习模型|AppAgent可以通过自主学习和模仿人类的点击和滑动手势，能够在手机上执行各种任务。 它可以在社交媒体上发帖、帮你撰写和发送邮件、使用地图、在线购物，甚至进行复杂的图像编辑... AppAgent在50个任务上进行了广泛测试，涵盖了10种不同的应用程序。 该项目由腾讯和德州大学达拉斯分校的研究团开发。|主要功能特点： -多模态代理：AppAgent是一个基于大语言模型的多模态代理，它能够处理和理解多种类型的信息（如文本、图像、触控操作等）。这使得它能够理解复杂的任务并在各种不同的应用程序中执行这些任务。 -直观交互：它能通过模仿人类的直观动作（如点击和滑动屏幕）来与智能手

问：Multi-Agent是什么

多智能体（Multi-Agent）是由多个自主、独立的智能体（Agent）组成的系统。在这个系统中，每个智能体都能够感知环境、进行决策并执行任务，同时它们之间可以进行信息共享、任务协调以及协同行动，以实现整体的目标。[heading2]关于Multi-Agent[content]随着大型语言模型（LLM）的出现，以LLM为核心构建的Agent系统近期受到了广泛关注。Agent系统旨在利用LLM的归纳推理能力，为不同的Agent分配角色和任务信息，并配备相应的工具插件，以完成复杂的任务。目前，更常见的框架主要集中在单Agent场景下。单Agent的核心在于LLM与工具的协同配合。LLM根据用户任务的理解，推理出需要调用的工具，并根据调用结果向用户提供反馈。在任务完成过程中，Agent可能需要与用户进行多轮交互。与此同时，越来越多的Agent框架开始关注多Agent场景。为了完成任务，多Agent会为不同的Agent指定不同的角色，并通过Agent之间的协作来完成复杂的任务。与单Agent相比，在任务完成过程中，与用户的交互可能会减少一些。[heading2]主要组成部分[content]为构建一个多Agent框架，我们需要思考相对于单Agent，框架中增加了哪些组件。环境（environment）：所有Agent应该处于同一个环境中。环境中包含全局状态信息，Agent与环境之间存在信息的交互与更新。阶段（stage）：为了完成复杂任务，现有多Agent框架通常采用SOP思想，将复杂任务分解为多个子任务。控制器（controller）：控制器可以是LLM，也可以是预先定义好的规则。它主要负责环境在不同Agent和阶段之间的切换。记忆：在单Agent中，记忆只包括用户、LLM回应和工具调用结果等部分。而在多Agent框架中，由于Agent数量增多，导致消息数量增多。同时，每条消息可能需要记录发送方、接收方等字段。