AI Agent 是基于大型语言模型(LLM)和其他技术实现的智能实体,其核心功能在于自主理解、规划决策、执行复杂任务。
AI Agent 包括以下几个概念:
1. Chain:通常一个 AI Agent 可能由多个 Chain 组成。一个 Chain 视作一个步骤,可以接受一些输入变量,产生一些输出变量。大部分的 Chain 是大语言模型完成的 LLM Chain。
2. Router:可以使用一些判定(甚至可以用 LLM 来判定),然后让 Agent 走向不同的 Chain。例如:如果这是一个图片,则 a;否则 b。
3. Tool:Agent 上可以进行的一次工具调用。例如,对互联网的一次搜索,对数据库的一次检索。
总结下来需要三个 Agent:
1. Responser Agent:主 agent,用于回复用户(伪多模态)。
2. Background Agent:背景 agent,用于推进角色当前状态(例如进入下一个剧本,抽检生成增长的记忆体)。
3. Daily Agent:每日 agent,用于生成剧本,配套的图片,以及每日朋友圈。
这三个 Agent 每隔一段时间运行一次(默认 3 分钟),运行时会分析期间的历史对话,变更人物关系(亲密度,了解度等),变更反感度,如果超标则拉黑用户,抽简对话内容,提取人物和用户的信息成为“增长的记忆体”,按照时间推进人物剧本,有概率主动聊天(与亲密度正相关,跳过夜间时间)。
此外,AI Agent 也像是在 RAG 的基础上更进一步。RAG 是给大模型一个浏览器工具使用,而 Agent 给了大模型更多工具,比如长期记忆(给大模型一个数据库工具记录重要信息)、规划和行动(在大模型的 prompt 层做逻辑,将目标拆解并输出不同的固定格式 action 指令给工具)。
总的来说,AI Agent 代表了在流程中给大模型使用工具的能力,为大模型的应用提供了更广阔的空间。例如可以让大模型安排差旅,它会判断完成目标所需步骤,搜索近期差旅记录,在相关平台预订酒店和机票,最终完成任务。
2024-09-18