与知识库对话

以下为您介绍一些较好的 AI 数字人相关的资源和产品： 1. 数字人躯壳构建：可以使用 web 前端页面（Live2D 就提供了 web 端的 SDK）或者 Native 的可执行程序进行部署。笔者的开源数字人项目（项目地址：https://github.com/wanh/awesomedigitalhumanlive2d）选择了 live2d 作为数字人躯壳，因为这类 SDK 的驱动方式相比现在的 AI 生成式的方式更加可控和自然，相比虚幻引擎这些驱动方式又更加轻量和简单。另外超写实的数字人风格在目前的技术能力下，处理不好一致性问题，容易带来虚假的感觉或者产生恐怖谷效应，而卡通二次元的形象给人的接受度更高。关于 live2d 的 SDK 驱动方式可以参考官方示例：https://github.com/Live2D。 2. 数字人课程：强烈推荐卡尔的 AI 沃茨做的这门数字人课程，一共 15 节视频课，持续更新还会不定时增加最新的数字人内容，附赠课外社群辅导，专门解决数字人相关的问题。关于卡尔，从创建 AIGC 开源学习网站 learnpromptl.pro，到建立卡尔的 AI 沃茨万人社群，他一直致力于 AI 学习圈。这一次，他建立了一套完整的数字人学习体系，放在这门《克隆你自己》的课程中，带领大家全方位掌握数字人各技能。同时，他详细回顾了 2023 年数字人领域的破圈事件，如 AI 马斯克对谈 AI 乔布斯超 331.9k 播放、霉霉说中文火遍全网、AI 郭德纲讲英文相声、硅语翻译｜海外明星送出中文新年祝福、通义千问｜兵马俑跳科目三、小冰推出支持交互的多模态数字人、阿根廷新总统用 HeyGen 做演讲等。数字人的出现，可以极大程度上优化工作流，尤其在制作个人 ip 短视频、配音、直播甚至到智能客服、虚拟偶像等各种领域都可以完成赋能。如果您想加入这场数字人浪潮，拥有自己的数字分身，优化自己的工作流，这门具备完整数字人学习体系的课程，正是您的需求。（扫码可以查看课程详细内容和介绍） 3. 算法驱动的数字人相关开源代码： ASR 语音识别：openai 的 whisper:https://github.com/openai/whisper ；wenet:https://github.com/wenete2e/wenet ；speech_recognition:https://github.com/Uberi/speech_recognition 。 AI Agent：大模型部分包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等等。Agent 部分可以使用 LangChain 的模块去做自定义，里面基本包含了 Agent 实现的几个组件。 TTS：微软的 edgetts：https://github.com/rany2/edgetts，只能使用里面预设的人物声音，目前接口免费；VITS：https://github.com/jaywalnut310/vits，还有很多的分支版本，可以去搜索一下，vits 系列可以自己训练出想要的人声；sovitssvc:https://github.com/svcdevelopteam/sovitssvc，专注到唱歌上面，前段时间很火的 AI 孙燕姿。当然这种简单的构建方式还存在很多的问题，例如：如何生成指定人物的声音？TTS 生成的音频如何精确驱动数字人口型以及做出相应的动作？数字人如何使用知识库，做出某个领域的专业性回答？