Chat with Wiki - ai agent有哪些技术

Answer

AI Agent 涉及的技术包括以下方面：

长期任务执行技术：能够将复杂、跨度长的任务分解为小步骤，并在执行中保持目标导向和适时调整策略。
多模态理解技术：能同时理解文字、图像、声音等多种交流方式，通过多种感官理解世界和任务上下文。
记忆与行动技术：通过先进的记忆机制积累经验，记住对话、操作步骤和效果，使行动更精准高效。
自适应学习技术：从每次交互中吸取经验，不断完善策略，实现“智慧成长”。

在技术层面，AI Agent 的发展有两条技术路线：

以自主决策为核心的 LLM 控制流，代表了 AGI 的探索方向。
以工作流（Workflow）编排为重点的工具集成系统，加速了 AI 落地应用。

特别值得关注的是 Anthropic 提出的 MCP（Model Context Protocol），其本质是一个通用接口协议，能解决让 AI 模型以标准化、可扩展方式与外部世界交互的问题。

此外，强化学习（RL）也是 AI Agent 的重要技术，起初主要依托策略搜索和价值函数优化等算法，如 Q-learning 和 SARSA。随着深度学习技术兴起，深度神经网络与强化学习结合形成深度强化学习，赋予 Agent 从高维输入中学习复杂策略的能力，如 AlphaGo 和 DQN 等。但强化学习面临训练周期长、采样效率低和稳定性等问题。其特点是通过试错学习最优行为策略以最大化累积奖励，时间始于 20 世纪 90 年代至今，技术包括 Q-learning、SARSA、深度强化学习（结合 DNN 和 RL），优点是能够处理高维状态空间和连续动作空间，缺点是样本效率低、训练时间长。

Content generated by AI large model, please carefully verify (powered by aily)

References

码观 | 共识与非共识：从模型到应用，2024 AI 趋势回首与展望

Long horizon task长期任务执行：就像一个称职的项目经理，Agent现在能够处理更复杂、跨度更长的任务。它不仅能够将大任务分解成可管理的小步骤，还能在执行过程中保持清晰的目标导向，适时调整策略。多模态理解：Agent不再局限于单一的交流方式。它能同时理解文字、图像、声音，就像人类一样通过多种感官来理解世界。这种全方位的感知能力让它能更好地理解环境和任务上下文。记忆与行动：通过先进的记忆机制，Agent能够像人类一样积累经验，从过去的交互中学习。它不仅能记住之前的对话，还能记住操作步骤和效果，这让它的行动更加精准和高效。自适应学习：最令人惊叹的是Agent的学习能力。它能够从每次交互中吸取经验，不断完善自己的策略。这种进步不是简单的数据积累，而是真正的“智慧成长”。在技术层面，AI Agent的发展出现了两条技术路线：一是以自主决策为核心的LLM控制流，二是以工作流（Workflow）编排为重点的工具集成系统。前者代表了AGI的探索方向，后者则加速了AI落地应用。特别值得关注的是Anthropic提出的MCP（Model Context Protocol），在其官网，Anthropic说2025年将是Agentic系统年。MCP的本质是一个通用接口协议，它试图解决一个根本性问题：如何让AI模型能够以一种标准化、可扩展的方式与外部世界交互。在传统方法中，每添加一个新工具或数据源，都需要重新设计接口和提示词。MCP则提供了一个统一的抽象层，将所有外部资源（工具、API、数据库等）抽象为“上下文提供者”(Context Providers)，使得模型能够自然地使用各种工具和访问各类数据。用一个比喻来理解：想象一个刚来到陌生城市的人。他需要完成各种任务：找住处、办手续、买日用品。

AI-Agent系列(一)：智能体起源探究

强化学习（RL）领域关注的核心议题是：如何培养Agent通过与环境的互动进行自我学习，以在特定任务中累积最大的长期奖励。起初，基于RL-based Agent主要依托于策略搜索和价值函数优化等算法，Q-learning和SARSA便是其中的典型代表。随着深度学习技术的兴起，深度神经网络与强化学习的结合开辟了新的天地，这就是深度强化学习。这一突破性融合赋予了Agent从高维输入中学习复杂策略的能力，带来了诸如AlphaGo和DQN等一系列令人瞩目的成就。深度强化学习的优势在于，它允许Agent在未知的环境中自主探索和学习，无需依赖明确的人工指导。这种方法的自主性和适应性使其在游戏、机器人控制等众多领域都展现出广泛的应用潜力。然而，强化学习的道路并非一帆风顺。它面临着诸多挑战，包括漫长的训练周期、低下的采样效率以及稳定性问题，特别是在将其应用于复杂多变的真实世界环境时更是如此。时间:20世纪90年代至今特点:通过试错学习最优行为策略,以最大化累积奖励技术:Q-learning,SARSA,深度强化学习(结合DNN和RL)优点:能够处理高维状态空间和连续动作空间缺点:样本效率低,训练时间长

AI-Agent系列(一)：智能体起源探究