Navigate to WaytoAGI Wiki →

Home/Question List/Question Detail

Multi-Agent是什么

Answer

关于多智能体（Multi-Agent）

多智能体是由多个自主、独立的智能体组成的系统。在这个系统中，每个智能体都能够感知环境、进行决策并执行任务，同时它们之间可以进行信息共享、任务协调以及协同行动，以实现整体的目标。

随着大型语言模型（LLM）的出现，以LLM为核心构建的Agent系统近期受到了广泛关注。Agent系统旨在利用LLM的归纳推理能力，为不同的Agent分配角色和任务信息，并配备相应的工具插件，以完成复杂的任务。

目前，更常见的框架主要集中在单Agent场景下。单Agent的核心在于LLM与工具的协同配合。LLM根据用户任务的理解，推理出需要调用的工具，并根据调用结果向用户提供反馈。在任务完成过程中，Agent可能需要与用户进行多轮交互。

与此同时，越来越多的Agent框架开始关注多Agent场景。为了完成任务，多Agent会为不同的Agent指定不同的角色，并通过Agent之间的协作来完成复杂的任务。与单Agent相比，在任务完成过程中，与用户的交互可能会减少一些。

主要组成部分

为构建一个多Agent框架，我们需要思考相对于单Agent，框架中增加了哪些组件。

环境（environment）：所有Agent应该处于同一个环境中。环境中包含全局状态信息，Agent与环境之间存在信息的交互与更新。
阶段（stage）：为了完成复杂任务，现有多Agent框架通常采用SOP思想，将复杂任务分解为多个子任务。
控制器（controller）：控制器可以是LLM，也可以是预先定义好的规则。它主要负责环境在不同Agent和阶段之间的切换。
记忆：在单Agent中，记忆只包括用户、LLM回应和工具调用结果等部分。而在多Agent框架中，由于Agent数量增多，导致消息数量增多。同时，每条消息可能需要记录发送方、接收方等字段。

核心交互流程

控制器更新当前环境状态，选择下一时刻行动的Agent。
Agent与环境交互，更新自身的记忆信息。
Agent调用LLM，执行动作并获取输出消息。
将输出消息更新到公共环境中。

Content generated by AI large model, please carefully verify (powered by aily)

References

开发：LangGraph-应用层的混合专家模型

质朴发言：从 GPTs 聊到 Agent、LLMOps 以及开源的新机会｜Z 沙龙第 1 期

质朴发言：吐血整理：AI 大模型浪潮涌动游戏范式革新｜Z 沙龙第 9 期

红杉 AI Ascent 2024 会议

Others are asking

AI Agents（智能体）

AI 智能体（Agents）是人工智能领域中一个重要的概念： 1. 从 AGI 的发展等级来看，智能体不仅具备推理能力，还能执行全自动化业务，但目前许多 AI Agent 产品在执行任务后仍需人类参与，尚未达到完全智能体的水平。 2. 作为大模型的主要发展方向之一，智能体中间的“智能体”其实就是大模型（LLM）。通过为 LLM 增加工具、记忆、行动、规划这四个能力来实现。目前行业里主要用到的是 langchain 框架，它把 LLM 与 LLM 之间以及 LLM 与工具之间通过代码或 prompt 的形式进行串接。 3. 从智能体的起源探究来看，心灵社会理论认为智能是由许多简单的 Agent（分等级、分功能的计算单元）共同工作和相互作用的结果。这些 Agent 在不同层次上执行不同的功能，通过协作实现复杂的智能行为。心灵社会将智能划分为多个层次，每个层次由多个 Agent 负责，每个 Agent 类似于功能模块，专门处理特定类型的信息或执行特定任务。同时存在专家 Agent、管理 Agent、学习 Agent 等不同类型的 Agent 及其相应功能。从达特茅斯会议开始讨论人工智能，到马文·明斯基引入“Agent”概念，“AI”和“Agent”就彻底聚齐，往后被称之为 AI Agent。

以下是关于 B 端 AI Agent 的相关知识：一、概念定义 1. 智能体（Agent）简单理解就是 AI 机器人小助手，参照移动互联网，类似 APP 应用的概念。随着 ChatGPT 与 AI 概念的爆火，出现了很多相关新名词，如 bot 和 GPTs 等。AI 大模型是技术，面向用户提供服务的是产品，因此很多公司关注 AI 应用层的产品机会。 C 端案例：如社交方向，用户注册后先捏一个自己的 Agent，然后让其与他人的 Agent 聊天，两个 Agent 聊到一起后真人再介入；还有借 Onlyfans 入局打造个性化聊天的创业公司。 B 端案例：字节扣子和腾讯元器若为面向普通人的低代码平台，类似 APP 时代的个人开发者，那么帮助 B 端商家搭建 Agent 就类似 APP 时代专业做 APP 的。 2. 智能体开发平台：最早接触到的扣子 Coze 是通过一篇科技报道，如 2 月 1 日，字节正式推出 AI 聊天机器人构建平台 Coze 的国内版“扣子”，主要用于开发下一代 AI 聊天机器人。国内还有很多智能体开发平台，如 Dify.AI，但个人较常用的是扣子，所以常对比字节扣子和腾讯元器。 3. 关注智能体的原因：目前 AI Agent 的概念在市场上未达成共识，存在被滥用现象。AI Agent 指的是一种智能代理系统，接近人类大脑，可形成记忆、达成行动规划、自动交互、主动预测。其应用具有个性化、自主完成任务、多 Agent 协作等特点。目前 AI Agent 应用大多集中在 2B 场景，面向个人消费者的产品少，一方面是高度智能化的 Agent 能力需打磨，概念落地有距离；另一方面是 AI 和娱乐消费诉求结合少，主要带来生产方式和效率变革，个人消费者方向目前只看到“私人助理”场景。

AI workflow在企业中是否比Agent应用价值和场景更多

AI workflow 和 Agent 在企业中的应用价值和场景各有特点。 Agentic Workflows 具有以下优势： 1. 灵活性、适应性和可定制性：能够根据任务难度进行调整和演变，通过组合不同模式实现定制，在需求和复杂性增长时进行迭代升级。 2. 在复杂任务上的性能提升：将复杂任务分解为更小、可管理的步骤，显著优于确定性的零样本方法。 3. 自我纠正和持续学习：能够评估自身行为，完善策略，从过去经验中学习，在每次迭代中变得更有效和个性化。 4. 操作效率和可扩展性：可以高精度自动化重复任务，减少人工操作和运营成本，还能轻松扩展。 Agentic Workflow 的应用场景包括原子设计模式的组合、与人类反馈循环集成等。例如，Agentic RAG 在检索增强生成流程中引入了一个或多个 AI Agents，在规划阶段可进行查询分解等操作，还能评估数据和响应的相关性和准确性。一般来说，Workflow 是一系列旨在完成特定任务或目标的相互连接的步骤。最简单的工作流是确定性的，遵循预定义步骤序列。有些工作流利用大模型或其他 AI 技术，分为 Agentic 和非 Agentic 两类。非 Agentic 工作流中，大模型根据指令生成输出。Agentic Workflow 是由单个或几个 AI Agents 动态执行的一系列连接步骤，被授予权限收集数据、执行任务并做出决策，利用 Agents 的核心组件将传统工作流转变为响应式、自适应和自我进化的过程。综上所述，不能简单地说 AI workflow 在企业中比 Agent 应用价值和场景更多，这取决于企业的具体需求和任务特点。

常见的工作流与 Agent 开发平台

常见的工作流与 Agent 开发平台如下： AI Workflow 开发平台： Coze：新一代 AI Bot 开发平台，集成了丰富的插件工具，有国际版和国内版。 Dify：开源平台，支持自定义和插件。腾讯元器。 FastGPT：国内知名，支持自定义流程。影刀&zapier。 Leap。 Betteryeah：立足 RPA 场景，用 AI 将用户需求生成工作流，并通过 RPA 自动化，产品形态与 Coze 相似，是企业级的 AI 应用开发平台。 Flowise：快速实现智能体搭建。 BISHENG：主攻 tob 场景的开源 LLM 搭建平台，与 fastgpt 功能类似，但面向的客户不同，整体功能和部署成本更重。 Agent 构建平台： Coze：具有拓展强、好上手、不用出国等优点。 Mircosoft 的 Copilot Studio：主要功能包括外挂数据、定义流程、调用 API 和操作，以及将 Copilot 部署到各种渠道。文心智能体：百度推出的基于文心大模型的智能体平台。 MindOS 的 Agent 平台：允许用户定义 Agent 的个性、动机、知识，以及访问第三方数据和服务或执行设计良好的工作流。斑头雁：2B 基于企业知识库构建专属 AI Agent 的平台，适用于客服、营销、销售等多种场景。钉钉 AI 超级助理：依托于钉钉强大的场景和数据优势，提供更深入的环境感知和记忆功能，在处理高频工作场景如销售、客服、行程安排等方面表现出色。此外，Inhai 的 Agentic Workflow 将一整套工作流组合起来，每个工具在每一个节点执行一个任务。LangGPT 提示词框架应用了 CoT 完成从输入到思维链再到输出的映射。

多模态Agent最新动态

以下是关于多模态 Agent 的最新动态：《质朴发言：视觉语言理解模型的当前技术边界与未来应用想象｜Z 研究第 2 期》近期，生成式 AI 领域的浪潮催化了多模态模型的探索，研究人员不断尝试使用更多模态数据的编码，以训练出能够理解和处理多种类型数据的模型。本份研究报告集中讨论了基于 Transformer 架构的视觉语言模型，报告范围专注于视觉和语言之间的交互，不考虑单纯的视觉到视觉的计算机视觉任务。从 2022 年 11 月 18 日到 2023 年 7 月 26 日，多模态 Agents 迅速增长。 LLM 多模态 agent 是将现有技术融合的新尝试，是一种集成了多种模态数据处理能力的 AI 技术。优点：高度的灵活性和扩展性，可根据不同任务需求调用最合适的模型处理任务，适应多样化任务和数据类型，优化资源使用，提升效率；无需训练，系统开发周期快，成本低。局限性：调试和工程化难度较高，维护和升级成本高；多个组件紧密耦合，单点故障可能导致整个系统风险增加；没有涌现出新的能力。适用场景：需要综合处理视频、语音和文本等多种信息的复杂环境，如自动驾驶汽车；高度交互和灵活的用户界面，如客户服务机器人或交互式娱乐应用。《2024 年度 AI 十大趋势报告》随着大模型对图像和视频信息的处理能力快速提升，预计 2025 年将开始出现更为综合性的多模态交互，AI 能够通过物联网、特定信息等多种感知通道进行协同。多模态输入和输出使 AI 交互性更强、交互频次更高，适用场景也更加丰富，AI 产品整体水平显著提升。 Agent 作为融合感知、分析、决策和执行能力的智能体，能够根据用户历史行为和偏好，主动提供建议、提醒并个性化执行能力，为用户提供高度个性化的任务。从 2025 年开始，AI Agent 即将广泛投入使用。从个性化推荐到直接生成个性化内容，AIGC 能够使用户体验的个性化程度有明显提升，这将帮助产品进一步完善用户体验，并通过提高用户忠诚度和迁移成本，实现差异化定价和进一步的服务增值，对产品的差异化竞争有重大意义。目前，基于 AIGC 的高度个性化已经在 AI 教育、AI 陪伴、AI 营销领域有明显进展。在硬件端搭载的多款 AI 智能助手也已开始以高度个性的个人助理作为宣传重点。

目前最好的AI Agent是哪一款

目前，在 AI Agent 领域，没有绝对意义上的“最好”的一款。以下为您介绍一些受到关注的 AI Agent： 1. AutoGPT 和 BabyAGI 是最早实现让 LLM 自己做自动化多步骤推理的开源智能代理，在去年 GPT4 刚发布时风靡全球科技圈。 2. Devin 是来自纽约华人创业团队 Cognition AI 的一款可以像人类程序员一样自动写代码的 Agent，但因演示视频过于科幻而被揭露造假。 3. Google 在今年的 Next 与 I/O 大会上发布了自己的 Agent 战略，如 Google Plan Search 能自动化多步骤执行搜索任务。 4. Cursor 中的 Agent 功能，只要给它一个模糊指令，它会自动规划和解决问题。Cline 作为一个 AI 助手，也有一定的能力，其新版本还推出了检查点功能。需要注意的是，AI Agent 领域在不断发展，不同的 Agent 在不同的应用场景和任务中可能表现出不同的优势。