与知识库对话

以下是关于开源数字人的相关信息：组合方案： 1. 先剪出音频，使用 https://elevenlabs.io/speechsynthesis 或使用 GPTsovits（）克隆声音，做出文案的音频。 2. 使用 wav2lip 整合包，导入视频和音频，对口型得到视频。基础 wav2lip+高清修复整合包下载地址：https://github.com/Rudrabha/Wav2Lip 。这就是目前的本地跑数字人的方案，效果都差不多，都是用的 wav2lip 。产品：https://synclabs.so/ 构建高质量的 AI 数字人： 1. 构建数字人躯壳：建好的模型可以使用 web 前端页面（Live2D 就提供了 web 端的 SDK）或者 Native 的可执行程序进行部署，最后呈现在用户面前的是一个 GUI 。笔者的开源数字人项目（项目地址：https://github.com/wanh/awesomedigitalhumanlive2d）选择了 live2d 作为数字人躯壳，因为这类 SDK 的驱动方式相比现在的 AI 生成式的方式更加可控和自然，相比虚幻引擎这些驱动方式又更加轻量和简单；另外超写实的数字人风格在目前的技术能力下，处理不好一致性问题，容易带来虚假的感觉或者产生恐怖谷效应，而卡通二次元的形象给人的接受度更高。关于 live2d 的 SDK 驱动方式可以参考官方示例：https://github.com/Live2D 。相关算法开源代码： 1. ASR 语音识别： openai 的 whisper: https://github.com/openai/whisper wenet: https://github.com/wenete2e/wenet speech_recognition（这是一个语音识别的接口集合，里面有不同实现的语音识别的接口）: https://github.com/Uberi/speech_recognition 2. AI Agent：大模型部分：包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等等。 Agent 部分：可以使用 LangChain 的模块去做自定义，里面基本包含了 Agent 实现的几个组件 3. TTS：微软的 edgetts：https://github.com/rany2/edgetts，只能使用里面预设的人物声音，目前接口免费。 VITS：https://github.com/jaywalnut310/vits，还有很多的分支版本，可以去搜索一下，vits 系列可以自己训练出想要的人声。 sovitssvc: https://github.com/svcdevelopteam/sovitssvc，专注到唱歌上面，前段时间很火的 AI 孙燕姿。除了算法，人物建模模型可以通过手动建模（音频驱动）或者 AIGC 的方式生成人物的动态效果（例如 wav2lip 模型）实现，这样就完成了一个最简单的数字人。当然这种简单的构建方式还存在很多的问题，例如： 1. 如何生成指定人物的声音？ 2. TTS 生成的音频如何精确驱动数字人口型以及做出相应的动作？ 3. 数字人如何使用知识库，做出某个领域的专业性回答？