Chat with Wiki - WayToAGI

以下是关于开源项目数字人的相关内容：一、构建高质量的 AI 数字人 1. 构建数字人躯壳建好的模型可以使用 web 前端页面（Live2D 就提供了 web 端的 SDK）或者 Native 的可执行程序进行部署，最后呈现在用户面前的是一个 GUI。开源数字人项目选择了 live2d 作为数字人躯壳，因为这类 SDK 的驱动方式相比现在的 AI 生成式的方式更加可控和自然，相比虚幻引擎这些驱动方式又更加轻量和简单。卡通二次元的形象给人的接受度更高。关于 live2d 的 SDK 驱动方式可以参考官方示例：https://github.com/Live2D 。 2. 构建数字人灵魂自建代码实现各模块开发工作量巨大，迭代难度高，对于个人开发者不现实。推荐借助开源社区的力量，如 dify、fastgpt 等成熟的高质量 AI 编排框架，它们有大量开源工作者维护，集成各种主流的模型供应商、工具以及算法实现等。在开源项目中，使用了 dify 的框架，利用其编排和可视化交互任意修改流程，构造不同的 AI Agent，并且实现相对复杂的功能，比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。 Dify 的 API 暴露了 audiototext 和 texttoaudio 两个接口，基于这两个接口就可以将数字人的语音识别和语音生成都交由 Dify 控制，从而低门槛做出自己高度定制化的数字人。具体的部署过程参考 B 站视频：https://www.bilibili.com/video/BV1kZWvesE25 。如果有更加高度定制的模型，也可以在 Dify 中接入 XInference 等模型管理平台，然后部署自己的模型。数字人 GUI 工程中仍然保留了 LLM、ASR、TTS、Agent 等多个模块，能够保持更好的扩展。上述 Dify 接口使用注意事项：必须在应用编排功能中打开文字转语音和语音转文字功能，否则接口会返回未使能的错误。只有接入了支持 TTS 和 SPEECH2TEXT 的模型供应商，才会在功能板块中展示出来，Dify 的模型供应商图标下标签有展示该供应商支持哪些功能，这里可以自行选择自己方便使用的。对于 TTS，不同的模型供应商支持的语音人物不同，可以根据个人喜好添加。二、写在最后数字人在未来肯定会有很多的应用场景，比如家庭中有数字人管家，全面接管智能家居或其他设备；学校中有数字人老师，孜孜不倦的为学生答疑解惑；商场里有数字人导购，为顾客提供指路、托管个人物品等悉心服务。数字人在未来肯定还有很多的技术突破，比如可以将五感数据作为输入（例如声音、图像、气味、震动等等），将所有可以控制躯壳的参数也作为输入（例如躯壳骨骼节点，面部混合形状参数等）；次世代的算法可以自我迭代升级，也可以拿到感官输入以及躯壳控制方法后，自行演化躯壳控制方式。作者希望通过 Dify 搭建数字人的开源项目，给大家展现低门槛高度定制数字人的基本思路，但数字人的核心还是在于我们的 Agent，也就是数字人的灵魂，怎样在 Dify 上面去编排专属自己的数字人灵魂是值得大家自己亲自体验的。真诚的希望看到，随着数字人的多模态能力接入、智能化水平升级、模型互动控制更精确，用户在需要使用 AI 的能力时，AI 既可以给你提供高质量的信息，也能关注到你的情绪，给你一个大大的微笑，也许到了那时，数字世界也开始有了温度。