与知识库对话

以下是关于实景数字人的相关信息： AI 数字人类型和应用场景： 1. 二维/三维虚拟人：用于游戏、IP 品牌（如柳夜熙）、内容创作（）等。 2. 真人形象数字人：用于直播卖货，营销/投流广告视频录制（如 Heygen）、语言学习（如 CallAnnie）等。 AI 数字人的价值： 1. 代替人说话，提升表达效率和营销效率。例如真人无法 24 小时直播，但数字人可以。 2. 创造真实世界无法完成的对话或交流。比如 AI talk 的实验探索，复活故去的亲人等。 AI 数字人面临的问题： 1. 平台限制：目前数字人水平参差不齐，平台担心直播观感，有一定打压限制。比如抖音出台一些标准，微信视频号容忍度更低，人工检查封号。 2. 技术限制：形象只是皮囊，智能水平和未来想象空间依赖大模型技术提升。 3. 需求限制：直播带货是落地场景，但不够刚。“懂得都懂”的刚需场景，国内搞不了。目前更多是体验新鲜感。 4. 伦理/法律限制：存在声音、影像版权等问题，比如换脸、数字永生等。如何构建高质量的 AI 数字人： 1. 构建数字人灵魂：让数字人具备各种智能，如记住个人信息、充当个人助手、在某个领域具备专业知识、处理复杂任务等。实现这些能力有几个工程关键点，包括写像人一样思考的 AI Agent，面临记忆模块、工作流模块、工具调用模块的构建挑战；灵魂部分驱动躯壳的实现，要定义灵魂部分的接口，躯壳通过 API 调用，注意包含情绪的语音表达以及保证躯壳的口型、表情、动作和语音的同步及匹配，目前主流方案只能做到预设一些表情动作，再做逻辑判断来播放预设，语音驱动口型相对成熟但闭源；要解决实时性问题，由于算法部分庞大，几乎不能单机部署，特别是大模型部分，会涉及网络耗时和模型推理耗时，低延时是亟需解决的问题；实现多元跨模态，不仅是语音交互，还可根据需求添加其他感官，如视觉通过添加摄像头数据和 CV 算法做图像解析等；处理拟人化场景，如插话、转移话题等情况，实现工程上的丝滑处理。 2. 虚拟数字人的分类和驱动方式：从驱动层面分为中之人驱动和 AI 驱动。中之人驱动运用动作捕捉和面部捕捉技术实现交互，有上限，缺乏高并发和量产化能力。AI 驱动使用 AI 技术创建、驱动和生成内容，赋予交互能力。从应用层面分为服务型、表演型和身份型。服务型虚拟数字人如虚拟主播、助手、教师、客服和医生等，为物理世界提供服务。表演型如虚拟偶像用于娱乐、影视等。身份型是物理世界“真人”的数字分身，在元宇宙中有广泛应用。以上讨论的虚拟数字人是 AI 驱动的，主要集中于服务型虚拟数字人，强调其具有功能属性，隶属于业务层。