知識ベースとの対話

智能体（Agent）在人工智能和计算机科学领域是一个非常重要的概念，指的是一种能够感知环境并采取行动以实现特定目标的实体，可以是软件程序，也可以是硬件设备。智能体可以根据其复杂性和功能分为以下几种类型： 1. 简单反应型智能体（Reactive Agents）：根据当前的感知输入直接采取行动，不维护内部状态，也不考虑历史信息。例如温控器，它根据温度传感器的输入直接打开或关闭加热器。 2. 基于模型的智能体（Modelbased Agents）：维护内部状态，对当前和历史感知输入进行建模，能够推理未来的状态变化，并根据推理结果采取行动。比如自动驾驶汽车，它不仅感知当前环境，还维护和更新周围环境的模型。 3. 目标导向型智能体（Goalbased Agents）：除了感知和行动外，还具有明确的目标，能够根据目标评估不同的行动方案，并选择最优的行动。例如机器人导航系统，它有明确的目的地，并计划路线以避免障碍。 4. 效用型智能体（Utilitybased Agents）：不仅有目标，还能量化不同状态的效用值，选择效用最大化的行动，评估行动的优劣，权衡利弊。比如金融交易智能体，根据不同市场条件选择最优的交易策略。 5. 学习型智能体（Learning Agents）：能够通过与环境的交互不断改进其性能，学习模型、行为策略以及目标函数。例如强化学习智能体，通过与环境互动不断学习最优策略。在 LLM 支持的自主 Agent 系统中，LLM 充当 Agents 的大脑，并辅以几个关键组成部分： 1. 规划：包括子目标和分解，将大型任务分解为更小的、可管理的子目标，从而能够有效处理复杂的任务；反思和完善，Agents 可以对过去的行为进行自我批评和自我反思，从错误中吸取教训，并针对未来的步骤进行完善，从而提高最终结果的质量。 2. 记忆：短期记忆，所有的上下文学习都是利用模型的短期记忆来学习；长期记忆，这为 Agents 提供了长时间保留和回忆（无限）信息的能力，通常是通过利用外部向量存储和快速检索来实现。 3. 工具使用：Agents 学习调用外部 API 来获取模型权重中缺失的额外信息（通常在预训练后很难更改），包括当前信息、代码执行能力、对专有信息源的访问等。随着 LLM 在几个关键能力上的成熟——理解复杂输入、进行推理和规划、可靠使用工具以及从错误中恢复，智能体开始在生产环境中涌现。智能体通过与人类用户的命令或交互式对话开始工作。一旦任务明确，智能体就会独立进行规划和操作，必要时会向人类寻求更多信息或判断。在执行过程中，智能体需要在每个步骤从环境中获取“基准事实”（如工具调用结果或代码执行情况）以评估其进展。智能体可以在检查点或遇到障碍时暂停等待人类反馈。任务通常在完成时终止，但也常常包含停止条件（如最大迭代次数）以保持控制。智能体适用于难以或无法预测所需步骤数量的开放性问题，且无法硬编码固定路径的场景。LLM 可能需要运行多个回合，您必须对其决策能力有一定信任。智能体的自主性使其非常适合在可信环境中扩展任务，但智能体的自主性也意味着更高的成本和潜在的错误累积。我们建议在沙盒环境中进行广泛测试，并设置适当的防护措施。以下是一些实用案例： 1. 用于解决 SWEbench 任务的编码智能体，根据任务描述对多个文件进行编辑：https://www.anthropic.com/research/swebenchsonnet 2. 我们的“计算机使用”参考实现，让 Claude 使用计算机完成任务：https://github.com/anthropics/anthropicquickstarts/tree/main/computerusedemo