知識ベースとの対話

您可以借助开源社区力量构建高质量的 AI 数字人。构建数字人的躯壳有多种方式： 1. 2D 引擎：风格偏向二次元，亲和力强，定制化成本低，代表是 Live2D Cubism。 2. 3D 引擎：风格偏向超写实的人物建模，拟真程度高，定制化成本高，代表是 UE、Unity、虚幻引擎 MetaHuman 等，但个人学习在电脑配置和学习难度上有一定门槛。 3. AIGC：省去建模流程直接生成数字人的展示图片，但存在算法生成的数字人很难保持 ID 一致性、帧与帧连贯性差等弊端。如果对人物模型真实度要求不高，可以使用，典型项目有 wav2lip、videoretalking 等。AIGC 还有直接生成 2D/3D 引擎模型的方向，但仍在探索中。构建数字人的灵魂需要注意以下几个工程关键点： 1. AI Agent：要让数字人像人一样思考就需要写一个像人一样的 Agent，工程实现所需的记忆模块、工作流模块、各种工具调用模块的构建都是挑战。 2. 驱动躯壳的实现：灵魂部分通过定义接口由躯壳部分通过 API 调用，调用方式可以是 HTTP、webSocket 等。但包含情绪的语音表达以及如何保证躯壳的口型、表情、动作和语音的同步及匹配，目前主流方案只能做到预设一些表情动作，再做一些逻辑判断来播放预设，语音驱动口型相对成熟但闭源。 3. 实时性：由于算法部分组成庞大，几乎不能实现单机部署，特别是大模型部分，所以算法一般会部署到额外的集群或者调用提供出来的 API，这里面就会涉及到网络耗时和模型推理耗时，如果响应太慢就会体验很差，所以低延时也是亟需解决的一个问题。 4. 多元跨模态：不仅仅是语音交互，还可以通过添加摄像头数据获取数据，再通过系列 CV 算法做图像解析等。 5. 拟人化场景：正常和人交流时不是线性对话，会有插话、转移话题等情况，这些情景需要通过工程丝滑处理。如果都要自建代码实现各模块，开发工作量巨大，迭代难度也很高，对于个人开发者来讲不现实。因此推荐借助开源社区的力量，现在开源社区已经有了像 dify、fastgpt 等等成熟的高质量 AI 编排框架，它们有大量的开源工作者维护，集成各种主流的模型供应商、工具以及算法实现等等。我们可以通过这些框架快速编排出自己的 AI Agent，赋予数字人灵魂。在笔者的开源项目中，使用了 dify 的框架，利用其编排和可视化交互任意修改流程，构造不同的 AI Agent，并且实现相对复杂的功能，比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。同时 Dify 的 API 暴露了 audiototext 和 texttoaudio 两个接口，基于这个两个接口就可以将数字人的语音识别和语音生成都交由 Dify 控制，从而低门槛做出来自己高度定制化的数字人。具体的部署过程参考 B 站视频：https://www.bilibili.com/video/BV1kZWvesE25 。如果有更加高度定制的模型，也可以在 Dify 中接入 XInference 等模型管理平台，然后部署自己的模型。此外，数字人 GUI 工程中仍然保留了 LLM、ASR、TTS、Agent 等多个模块，能够保持更好的扩展，比如实现更加真实性感的语音转换、或者如果有更加 Geek 的 Agent 实现也可以选择直接后端编码扩展实现。使用 Dify 接口需要注意： 1. 必须在应用编排功能中打开文字转语音和语音转文字功能，否则接口会返回未使能的错误。 2. 只有接入了支持 TTS 和 SPEECH2TEXT 的模型供应商，才会在功能板块中展示出来，Dify 的模型供应商图标下标签有展示该供应商支持哪些功能，这里可以自行选择自己方便使用的。对于 TTS，不同的模型供应商支持的语音人物不同，可以根据个人喜好添加。