与知识库对话 - 用ai作为自己的教练agent如何实现

回答

要将 AI 作为自己的教练 Agent 实现，需要考虑以下几个方面：

构建数字人灵魂：
- AI Agent：需要编写像人一样的 Agent，工程实现所需的记忆模块、工作流模块、各种工具调用模块的构建具有挑战性。
- 驱动躯壳的实现：定义灵魂部分的接口，躯壳部分通过 API 调用，如 HTTP、WebSocket 等，但要处理好包含情绪的语音表达以及躯壳的口型、表情、动作和语音的同步及匹配。
- 实时性：由于算法部分组成庞大，几乎不能单机部署，需解决网络耗时和模型推理耗时导致的响应慢问题。
- 多元跨模态：不仅要有语音交互，还可根据实际需求加入其他感官，如通过添加摄像头数据获取视觉信息。
- 拟人化场景：处理好插话、转移话题等非线性对话情景。
借助开源社区力量：
- 推荐使用像 dify、fastgpt 等成熟的高质量 AI 编排框架，可快速编排出自己的 AI Agent。
- 例如在开源项目中使用 dify 框架，能利用其编排和可视化交互修改流程，构造不同的 AI Agent，实现复杂功能，如知识库搭建、工具使用等，无需编码和重新部署。
- Dify 的 API 暴露了 audio-to-text 和 text-to-audio 接口，可用于数字人的语音识别和生成控制。
- 对于高度定制的模型，可在 Dify 中接入 XInference 等模型管理平台并部署自己的模型，同时数字人 GUI 工程保留多个模块以保持扩展。

然而，在实际操作中也存在一些问题，如沉淀领域知识喂给 AI 并不断调教并非能保持愉悦，可能会从兴奋转为嫌弃，且国产大模型存在一些桎梏，调优反复，多数人尝试后又回到舒适模式。但仍可通过不断探索和尝试来实现将 AI 作为教练 Agent 的目标。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

AI 数字人-定义数字世界中的你

有了数字人躯壳，我们就需要构建数字人的灵魂，让数字人具备各种智能，比如记得你的个人信息，充当你的个人助手；在某个领域具备更专业的知识；能处理复杂的任务等等。这些能力实现有以下几个需要注意的工程关键点：1.AI Agent：我们要想数字人像人一样思考就需要写一个像人一样的Agent，工程实现所需的记忆模块，工作流模块、各种工具调用模块的构建都是挑战；2.驱动躯壳的实现：灵魂部分怎样去驱动躯壳部分，我们可以将灵魂部分的所有接口定义出来，然后躯壳部分通过API调用，调用方式可以是HTTP、webSocket等等，视躯壳部分的实现而定。但包含情绪的语音表达以及如何保证躯壳的口型、表情、动作和语音的同步及匹配，目前主流方案只能做到预设一些表情动作，再做一些逻辑判断来播放预设，语音驱动口型相对来说成熟一些，但都是闭源的，效果可以参考Nvidia的Audio2Face(https://www.nvidia.cn/omniverse/apps/audio2face/)或则Live Link Face(Iphone APP)+Face AR Sample(UE)；3.实时性：由于整个数字人的算法部分组成庞大，几乎不能实现单机部署，特别是大模型部分，所以算法一般会部署到额外的集群或者调用提供出来的API，这里面就会涉及到网络耗时和模型推理耗时，如果响应太慢就会体验很差，所以低延时也是亟需解决的一个问题。4.多元跨模态：仅仅是语音交互的数字人是远远不够的，人有五感(听觉、视觉、嗅觉、触觉、味觉)，听觉只是其中一种，其他的感官可以根据实际需求来做，比如视觉我们可以通过添加摄像头数据来获取数据，再通过系列CV算法做图像解析等；5.拟人化场景：我们正常和人交流的时候不是线性对话，会有插话、转移话题等情况，这些情景如何通过工程丝滑处理。

AI 数字人-定义数字世界中的你

上述种种，如果都要自建代码实现各模块，开发工作量巨大，迭代难度也很高，对于个人开发者来讲不现实。因此我们推荐借助开源社区的力量，现在开源社区已经有了像dify、fastgpt等等成熟的高质量AI编排框架，它们有大量的开源工作者维护，集成各种主流的模型供应商、工具以及算法实现等等。我们可以通过这些框架快速编排出自己的AI Agent，赋予数字人灵魂。在笔者的开源项目中，使用了dify的框架，利用其编排和可视化交互任意修改流程，构造不同的AI Agent，并且实现相对复杂的功能，比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。同时Dify的API暴露了audio-to-text和text-to-audio两个接口，基于这个两个接口就可以将数字人的语音识别和语音生成都交由Dify控制，从而低门槛做出来自己高度定制化的数字人（如下图），具体的部署过程参考B站视频：https://www.bilibili.com/video/BV1kZWvesE25。如果有更加高度定制的模型，也可以在Dify中接入XInference等模型管理平台，然后部署自己的模型。此外，数字人GUI工程中仍然保留了LLM、ASR、TTS、Agent等多个模块，能够保持更好的扩展，比如实现更加真实性感的语音转换、或者如果有更加Geek的Agent实现也可以选择直接后端编码扩展实现。

彬子：2024 AI 年度小记

仍然很幸运的结识到一些有自己私域的教练们，他们个性鲜明，能力突出，面向他们客户交付服务就是他们自己呈现出的状态。与他们交流下来，之前的服务方式是他们个人+若干个小助理。他们把握核心环节，小助理维护好周边，这些小助理的稳定性和水平时常会有波动。他们也期待在他们的服务SOP里，使用AI工具或尝试捏Bot来逐渐代替部分小助理的事项。需求看似有了且广泛，但这个需求的优先级并没有那么痛。沉淀自己的领域知识喂给AI然后不断调教并不是一个能保持愉悦的过程，可能很快就从兴奋中跌落到嫌弃的状态中。加上国产大模型本身的一些桎梏，调优的反复，大多数人经过一些时间的尝试基本又回到自己比较舒适的模式中。这个陪伴中我小范围的做了几场直播分享和教学，这是对我最宝贵的体验和经验。从那开始我就没那么排斥直播形式的分享。其实很多事情都是冥冥之中自有安排。我在捏虚拟女友李思思的时候结识了皮皮，皮皮向Myshell推荐了我，但我对拟人的细腻情绪处理是缺乏经验的，也不擅长。所以就搁置了同Myshell的合作（当时他们的主推方向还是虚拟陪伴）。后来在WaytoAGI社区的ComfyUI共学中入了图流流的门，正处于跃跃欲试的亢奋中，看到啥流都会仔细分析一番。这时候，Myshell的Hans跟我聊起他们新的战略项目，ShellAgent，这里需要两个关键技能，外层Agent的构建和内层ComfyUI的搭建。就这么巧。我刚好，也是刚刚凑齐。