与知识库对话 - 怎么做ai agent

回答

要制作 AI Agent ，主要有以下几个方面：

构建数字人灵魂：
- 让数字人具备各种智能，如记住个人信息、充当个人助手、在特定领域具备专业知识、处理复杂任务等。
- 工程实现所需的记忆模块、工作流模块、各种工具调用模块的构建存在挑战。
- 注意灵魂部分如何驱动躯壳部分，可将灵魂部分的接口定义出来，躯壳部分通过 API 调用，调用方式视躯壳部分的实现而定。但包含情绪的语音表达以及保证躯壳的口型、表情、动作和语音的同步及匹配存在困难，目前主流方案只能做到预设一些表情动作，再做一些逻辑判断来播放预设，语音驱动口型相对成熟，但多为闭源。
制作“有趣的灵魂”：
- 最直接的解决方式是通过微调一个定向模型来达到效果。
- 基于微调的方法可将信息直接“记忆”在 AI 的“大脑模块”中，是一个信息压缩和整合的过程，能将零散信息有效嵌入大型模型的权重中，提高信息提取效率，减少处理数据量，优化性能和成本。
- 一般创建方式是 Prompt-tuning + Fine-tuning 相结合。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

有了数字人躯壳，我们就需要构建数字人的灵魂，让数字人具备各种智能，比如记得你的个人信息，充当你的个人助手；在某个领域具备更专业的知识；能处理复杂的任务等等。这些能力实现有以下几个需要注意的工程关键点：1.AI Agent：我们要想数字人像人一样思考就需要写一个像人一样的Agent，工程实现所需的记忆模块，工作流模块、各种工具调用模块的构建都是挑战；2.驱动躯壳的实现：灵魂部分怎样去驱动躯壳部分，我们可以将灵魂部分的所有接口定义出来，然后躯壳部分通过API调用，调用方式可以是HTTP、webSocket等等，视躯壳部分的实现而定。但包含情绪的语音表达以及如何保证躯壳的口型、表情、动作和语音的同步及匹配，目前主流方案只能做到预设一些表情动作，再做一些逻辑判断来播放预设，语音驱动口型相对来说成熟一些，但都是闭源的，效果可以参考Nvidia的Audio2Face(https://www.nvidia.cn/omniverse/apps/audio2face/)或则Live Link Face(Iphone APP)+ Face AR Sample(UE)；

AI-Agent系列(一)：智能体起源探究

紧接上面的总结，那”有趣的灵魂"咋办呢？目前，针对"有趣的灵魂"最直接的解决方式就是通过微调一个定向模型来达到上述效果。与Prompt相比，基于微调的方法可以视为将信息直接“记忆”在AI的“大脑模块”中。微调过程本质上是一个信息压缩和整合的过程，它能将例如三万条推特中的零散信息有效地整理并嵌入到大型模型的权重中，且权重占比不到1%。这种方法不仅提高了信息提取的效率，还减少了每次查询或应用时所需处理的数据量，从而优化了性能和成本。"面对有趣的灵魂"，一般创建方式是两种结合，即Prompt-tuning +Fine-tuning。

AI-Agent系列(一)：智能体起源探究