Chat with Wiki - 大模型 Agent

Answer

AI Agent 是从年前到现在比较火的概念，被认为是大模型未来的主要发展方向。

从原理上看，中间的“智能体”就是 LLM 或大模型，为其增加的四个能力分别是工具、记忆、行动、规划。目前行业里主要用到的是 langchain 框架，它把 LLM 和 LLM 之间以及 LLM 和工具之间通过代码或 prompt 的形式进行串接。比如给大模型增加长期记忆，就是提供一个数据库工具让其记录重要信息；规划和行动则是在大模型的 prompt 层做逻辑处理，将目标拆解并输出不同的固定格式 action 指令给工具。

大模型利用“网页搜索”工具的典型例子如 Kimi Chat，会在互联网上检索相关内容并总结分析给出结论。Agent 可以自行规划任务执行的工作流路径，面向简单或线性流程运行。吴恩达通过开源项目 ChatDev 举例，一个大语言模型可以扮演不同角色相互协作开发应用或复杂程序。

OpenAI 的研究主管 Lilian Weng 提出“Agent = LLM + 规划 + 记忆 + 工具使用”的基础架构，其中规划包括子目标分解、反思与改进，记忆用于存储信息。

结合“一人公司”的愿景，未来的 AI 数字员工会以大语言模型为大脑串联所有工具，创造者的学习方向是用大模型和 Agent 模式把工具串起来，关注创造能落地的 agent 应用。Agent 工程如同传统软件工程学，有迭代的范式，包括梳理流程、任务工具化、建立规划、迭代优化。在从 copilot 到 Agent 的发展中，需要在对 AI 能力基础上对固化流程和让 AI 自主思考作出妥协和平衡。

Content generated by AI large model, please carefully verify (powered by aily)

References

非技术背景，一文读懂大模型（长文）

agent算是从年前到现在，比较火的一个概念了，也被很多人认为是大模型的未来的一个主要发展方向。首先我们看这个很经典的一张图看起来还是蛮复杂的，然后市面上的很多描述agent的文章写的也比较复杂，说智能体是啥智能的最小单元，相较于copilot，是可以给他设定一个目标后主动完成任务的等等。当然这些说法都没错，但是我觉得还是有些不好理解的。所以我们依然先从原理着手去理解下，agent是个什么东西。首先这张图里，中间的“智能体”，其实就是llm，或者说大模型。四个箭头，分别是我们为llm增加的四个能力。工具、记忆、行动、规划。那么这个是怎么新增的呢？目前行业里主要用到的是一个叫langchain的框架，这个框架可以简单理解为，他把llm和llm之间，以及llm和工具之间，通过代码或prompt的形式，进行了串接。这个其实也像是在rag的基础上再进了一步。因为我们知道rag其实是给了大模型一个浏览器工具来使用嘛，那agent，其实就是给了大模型更多的工具。比如像是长期记忆，其实就是给了大模型一个数据库工具让其往里记录重要信息。规划和行动，其实就是在大模型的prompt层做的些逻辑，比如让其将目标进行每一步的拆解，拆解完成后，每一步去输出不同的固定格式action指令，给到工具作为输入。当然langchain或者说agent还不止这些，也会有很多其他的代码逻辑体现在其中，不过其主要的主干逻辑，其实还是在prompt层和工具层，完成的设计。

Inhai: Agentic Workflow：AI 重塑了我的工作流

如果大家使用Kimi Chat来查询某个问题，你会发现它会在互联网上检索相关内容，并基于检索结果进行总结分析，最后给出结论。这其实是大模型利用「网页搜索」工具的一个典型例子，同时你也会看到PPT中介绍了非常多的不同领域类型的工具，它其实是为大模型在获取、处理、呈现信息上做额外的补充。PlanningAgent通过自行规划任务执行的工作流路径，面向于简单的或者一些线性流程的运行。比如下图中：Agent会先识别男孩的姿势，并可能找到一个姿势提取模型来识别姿势，在接下来要找到一个姿势图像模型来合成一个新的女孩图像，然后再使用图像理解文本的模型，并在最后使用语音合成输出，完成这个流程任务。Multiagent Collaboration吴恩达通过开源项目ChatDev进行举例，你可以让一个大语言模型扮演不同的角色，比如让一个Agent扮演公司CEO、产品经理、设计师、代码工程师或测试人员，这些Agent会相互协作，根据需求共同开发一个应用或者复杂程序。AI Agent基本框架OpenAI的研究主管Lilian Weng曾经写过一篇博客叫做《LLM Powered Autonomous Agents》，其中就很好的介绍了Agent的设计框架，她提出了“Agent=LLM+规划+记忆+工具使用”的基础架构，其中大模型LLM扮演了Agent的“大脑”。Planning（规划）主要包括子目标分解、反思与改进。将大型任务分解为较小可管理的子目标处理复杂的任务。而反思和改进指可以对过去的行动进行自我批评和自我反思，从错误中学习并改进未来的步骤，从而提高最终结果的质量。Memory（记忆）

0. 学习路径: 成为基于Agent的创造者

结合我们“一人公司”的愿景,我们需要大量的智能体(数字员工)替我们打工.而未来的AI数字员工,会以大语言模型为大脑,串联所有已有的工具和新造的AI工具.@罗文:数字员工(agent)=学历(大模型)+察言观色(观察)+逻辑思维(推理)+执行(SOP)创造者的学习也依照这个方向,用大模型和Agent模式把工具串起来,着重关注在创造能落地AI的agent应用.大模型的开发研究和演进,就交给学术界和大厂吧.?[heading2]Agent工程(基础版)[content]如同传统的软件工程学,Agent工程也有一个迭代的范式:1.梳理流程:梳理工作流程SOP,并拆解成多个单一「任务」和多个「任务执行流程」.2.「任务」工具化:自动化每一个「任务」,形成一系列的小工具,让机器能完成每一个单一任务.3.建立规划:串联工具,基于agent框架让bot来规划「任务执行流程」.4.迭代优化:不停迭代优化「任务」工具和「任务执行流程」规划,造就能应对实际场景的Agent.[heading2]数字员工“进化论”[content]itao:《从copilot到Agent,从实习到转正,从副驾到主驾》--到底是固化流程,还是让AI自主思考,需要在对AI能力基础上作出妥协和平衡.