Chat with Wiki - 怎么搭建AI Agent

Answer

搭建 AI Agent 主要包括以下几个方面：

AI Agent 的概念：AI Agent 简单来说就是拥有各项能力的“打工人”来帮我们做特定的事情。它包含了自己的知识库、工作流、还可以调用外部工具，再结合大模型的自然语言理解能力，就可以完成比较复杂的工作。
构建数字人灵魂中的 AI Agent 工程实现：所需的记忆模块，工作流模块、各种工具调用模块的构建都是挑战。
驱动躯壳的实现：灵魂部分怎样去驱动躯壳部分，我们可以将灵魂部分的所有接口定义出来，然后躯壳部分通过 API 调用，调用方式可以是 HTTP、webSocket 等等，视躯壳部分的实现而定。但包含情绪的语音表达以及如何保证躯壳的口型、表情、动作和语音的同步及匹配，目前主流方案只能做到预设一些表情动作，再做一些逻辑判断来播放预设，语音驱动口型相对来说成熟一些，但都是闭源的。
实时性：由于整个数字人的算法部分组成庞大，几乎不能实现单机部署，特别是大模型部分，所以算法一般会部署到额外的集群或者调用提供出来的 API，这里面就会涉及到网络耗时和模型推理耗时，如果响应太慢就会体验很差，所以低延时也是亟需解决的一个问题。
多元跨模态：仅仅是语音交互的数字人是远远不够的，人有五感（听觉、视觉、嗅觉、触觉、味觉），听觉只是其中一种，其他的感官可以根据实际需求来做。
拟人化场景：正常和人交流的时候不是线性对话，会有插话、转移话题等情况，这些情景如何通过工程丝滑处理。
制作 AI Agent 的方式：一般创建方式是 Prompt-tuning + Fine-tuning 相结合。单纯通过 Prompt 来构建大脑模块（Prompt-tuning），一般适合“无趣的灵魂”，即拟人化不是那么重的情况。针对“有趣的灵魂”，最直接的解决方式就是通过微调一个定向模型来达到上述效果。微调过程本质上是一个信息压缩和整合的过程，它能将例如三万条推特中的零散信息有效地整理并嵌入到大型模型的权重中，且权重占比不到 1%。这种方法不仅提高了信息提取的效率，还减少了每次查询或应用时所需处理的数据量，从而优化了性能和成本。

此外，像字节的扣子就是一个 AI Bot 开发平台，用户无论是否具备编程基础，都能在该平台上迅速构建基于 AI 模型的各类问答 Bot。创建智能体可以通过简单 3 步，首先起一个智能体的名称，然后写一段智能体的简单介绍，最后使用 AI 创建一个头像即可。

Content generated by AI large model, please carefully verify (powered by aily)

References

AI 数字人-定义数字世界中的你

[title]AI数字人-定义数字世界中的你[heading2]二、如何构建高质量的AI数字人[heading4]2.2构建数字人灵魂有了数字人躯壳，我们就需要构建数字人的灵魂，让数字人具备各种智能，比如记得你的个人信息，充当你的个人助手；在某个领域具备更专业的知识；能处理复杂的任务等等。这些能力实现有以下几个需要注意的工程关键点：1.AI Agent：我们要想数字人像人一样思考就需要写一个像人一样的Agent，工程实现所需的记忆模块，工作流模块、各种工具调用模块的构建都是挑战；2.驱动躯壳的实现：灵魂部分怎样去驱动躯壳部分，我们可以将灵魂部分的所有接口定义出来，然后躯壳部分通过API调用，调用方式可以是HTTP、webSocket等等，视躯壳部分的实现而定。但包含情绪的语音表达以及如何保证躯壳的口型、表情、动作和语音的同步及匹配，目前主流方案只能做到预设一些表情动作，再做一些逻辑判断来播放预设，语音驱动口型相对来说成熟一些，但都是闭源的，效果可以参考Nvidia的Audio2Face(https://www.nvidia.cn/omniverse/apps/audio2face/)或则Live Link Face(Iphone APP)+ Face AR Sample(UE)；3.实时性：由于整个数字人的算法部分组成庞大，几乎不能实现单机部署，特别是大模型部分，所以算法一般会部署到额外的集群或者调用提供出来的API，这里面就会涉及到网络耗时和模型推理耗时，如果响应太慢就会体验很差，所以低延时也是亟需解决的一个问题。4.多元跨模态：仅仅是语音交互的数字人是远远不够的，人有五感(听觉、视觉、嗅觉、触觉、味觉)，听觉只是其中一种，其他的感官可以根据实际需求来做，比如视觉我们可以通过添加摄像头数据来获取数据，再通过系列CV算法做图像解析等；5.拟人化场景：我们正常和人交流的时候不是线性对话，会有插话、转移话题等情况，这些情景如何通过工程丝滑处理。

我用扣子做一个简单的智能体——竖起耳朵听

AI Agent也就是我们所说的AI智能体，那什么是AI智能体呢？简单来说就是拥有各项能力的打工人来帮我们做特定的事情。目前有不少大厂推出自己的AI智能体平台，像字节的扣子，阿里的魔搭社区等等，体验过GPT或者文心一言大模型的小伙伴应该都知道，现在基本可以用自然语言来编程了，相当于降低了编程的门槛，另外之前在使用GPT或者文心一言大模型的时候会出现胡编乱造的情况以及时效性、无法满足个性化需求等问题，如果这些不解决的话，AI很难被真正广泛应用，而AI智能体的出现正是解决这些问题的绝佳方式，AI智能体包含了自己的知识库、工作流、还可以调用外部工具，再结合大模型的自然语言理解能力，就可以完成比较复杂的工作。所以AI智能体的出现就是结合自己的业务场景，针对自己的需求，捏出自己的AI智能体来解决自己的事情。[heading2]扣子Coze[content]?扣子官网：[https://www.coze.cn/](https://www.coze.cn/)扣子（Coze），作为字节跳动旗下的新一代一站式AI Bot开发平台，无论用户是否具备编程基础，都能在该平台上迅速构建基于AI模型的各类问答Bot。这些Bot的功能涵盖了从解决简单问答到处理复杂逻辑对话的广泛范围。当我们开发完成后，还可以将自己构建的Bot发布到各种社交平台和通讯软件上，让更广泛的用户群体能够与这些Bot进行交互聊天。[heading2]竖起耳朵听的创建[content]我们可以通过简单3步创建智能体，首先我们要起一个智能体的名称，然后写一段智能体的简单介绍，最后使用AI创建一个头像即可。

AI-Agent系列(一)：智能体起源探究

图10.1.1创建AI Agent的两种手段（来自李博杰的个人博客）不过，虽然Prompt在激活和运用AI Agent的“大脑模块”中扮演着关键角色，但它并非没有缺点。一个很直观的问题是：使用的Prompt越长，消耗的Token也就越多。一个公众人物公开披露的个人信息（身份、言行等），转换成Token数可能高达数百万。这还不考虑模型是否能够处理这么多Token的问题，仅仅是每次推理所需支付的成本——无论是金钱还是时间——都可能非常高昂。所以，单纯通过Prompt来构建大脑模块（Prompt-tuning），一般适合“无趣的灵魂”，即拟人化不是那么重的情况。紧接上面的总结，那”有趣的灵魂"咋办呢？目前，针对"有趣的灵魂"最直接的解决方式就是通过微调一个定向模型来达到上述效果。与Prompt相比，基于微调的方法可以视为将信息直接“记忆”在AI的“大脑模块”中。微调过程本质上是一个信息压缩和整合的过程，它能将例如三万条推特中的零散信息有效地整理并嵌入到大型模型的权重中，且权重占比不到1%。这种方法不仅提高了信息提取的效率，还减少了每次查询或应用时所需处理的数据量，从而优化了性能和成本。"面对有趣的灵魂"，一般创建方式是两种结合，即Prompt-tuning +Fine-tuning。