与知识库对话 - AI音频与数字人

回答

以下是关于 AI 音频与数字人的相关信息：

数字人口播配音：

操作指引：输入口播文案，选择期望生成的数字人形象及目标语言，选择输出类型，点击开始生成。
支持的数字人形象和语言多样，能让视频制作更高效。

图片换脸：

操作指引：上传原始图片和换脸图片，点击开始生成。
图片大小上限 5M，支持 JPG、PNG 格式。

视频换脸：

操作指引：上传原始视频和换脸图片，点击生成。

音频合成数字人：

操作指引：上传音频文件，选择数字人角色和输出类型，点击开始生成。
支持 MP3 和 WAV 格式的音频文件，文件大小上限 5M，工具支持使用 100+数字人模板，可解决无素材冷启问题。

AI 配音：

多语种（包含菲律宾语、印地语、马来语等小语种）智能配音，同时支持区分男声和女声。
操作指引：输入需配音文案，选择音色，点击立即生成。
注意输入的配音文案需和选择音色语种保持一致。

AI 字幕：

操作指引：点击上传视频，开始生成，字幕解析完成后下载 SRT 字幕。
支持 MP4 文件类型，大小上限为 50M。

在数字人语音合成方面，提到了声音克隆，有新的声音克隆且音质很不错。算法驱动的数字人相关开源代码仓库有：

ASR 语音识别：openai 的 whisper（https://github.com/openai/whisper）、wenet（https://github.com/wenet-e2e/wenet）、speech_recognition（https://github.com/Uberi/speech_recognition）。
大模型：ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。
Agent 部分：可以使用 LangChain 的模块去做自定义（https://www.langchain.com/）。
TTS：微软的 edge-tts（https://github.com/rany2/edge-tts）、VITS（https://github.com/jaywalnut310/vits）、so-vits-svc（https://github.com/svc-develop-team/so-vits-svc）。

构建简单数字人的方式包括通过手动建模（音频驱动）或者 AIGC 的方式生成人物的动态效果（例如 wav2lip 模型），但仍存在一些问题，如如何生成指定人物的声音、TTS 生成的音频如何精确驱动数字人口型以及做出相应的动作、数字人如何使用知识库做出某个领域的专业性回答等。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

【Tec-Creative】帮助手册

[heading1]创意工具箱[heading2]数字人口播配音[content]只需输入口播文案，选择期望生成的数字人形象及目标语言，即可生成数字人口播视频，让视频制作变得轻松高效！操作指引输入口播文案——选择目标语言——选择数字人角色——选择输出类型——点击开始生成[heading2]图片换脸[content]仅需上传原始图片和换脸图片，即可一键实现素材换脸，极大提高素材生成效率！操作指引上传原始图片——上传换脸图片——点击开始生成*图片大小上限5M，支持JPG、PNG格式[heading2]视频换脸[content]自动识别视频中的人脸，并将其替换为选择的脸部，实现在视频中快速、精确地替换人物的脸部！操作指引上传原始视频——上传换脸图片——点击生成[heading2]音频合成数字人[content]只需上传音频文件，即可基于音频合成对应的数字人视频，工具支持使用100+数字人模板，一键解决无素材冷启问题！操作指引：上传音频文件——选择数字人角色——选择输出类型——点击开始生成*注意：音频文件支持MP3和WAV格式，文件大小上限5M[heading2]AI配音[content]多语种（包含菲律宾语、印地语、马来语等小语种）智能配音，同时支持区分男声和女声，高效解决素材出海语言障碍问题！操作指引：输入需配音文案——选择音色——点击立即生成注意：输入的配音文案需和选择音色语种保持一致[heading2]AI字幕[content]智能识别视频语言并生成对应字幕，满足海外多国投放场景需求。操作指引：点击上传视频——开始生成——字幕解析完成——下载SRT字幕注意：支持MP4文件类型，大小上限为50M。

01-通往AGI之路知识库使用指南

[heading2]智能章节本章节主要介绍了AI音乐和数字人语音合成。在AI音乐方面，提到草爷、格林king、狗哥带大家入门，有相关课程与教程，且淘宝上有套壳工具抄袭。社区伙伴做的AI音乐专辑不错。数字人语音合成部分提到声音克隆，有新的声音克隆且音质很不错。[01:45:22](https://waytoagi.feishu.cn/minutes/obcn7mvb3vu6k6w6t68x14v5?t=6322000)微软、阿里相关产品及AI 3D活动、加班、3D打印与confiui的杂谈本章节提到了微软新出的成果、阿里的Cozy voice（指出其泛化能力不强）、大家常用的GPT solve it、刚举办的AI 3D活动，还讲述了说话者疯狂出成果且用3D打印机打印，最后提到confiui并询问confiui是什么。[01:46:32](https://waytoagi.feishu.cn/minutes/obcn7mvb3vu6k6w6t68x14v5?t=6392000)Config UI工作流在多行业的应用及岗位稀缺性本章节以小田的config UI基础工作流一日谈展开，讲述了多个案例，如许建拍摄场景图成本降低，郭佑萌在图书出版行业提升效率，影楼可进行换装等操作，文旅文创场景有有趣的合影生成方式，还提到该工作流岗位稀缺且社区有课程可供学习。[01:49:02](https://waytoagi.feishu.cn/minutes/obcn7mvb3vu6k6w6t68x14v5?t=6542000)AJ介绍平台资源，包括共学课程、专栏报告、数据等，还提及就业创业及一些企业专栏的内容

AI 数字人-定义数字世界中的你

上述算法开源的代码有很多，这里列出一些仓库供大家参考：ASR语音识别openai的whisper:https://github.com/openai/whisperwenet:https://github.com/wenet-e2e/wenetspeech_recognition(这是一个语音识别的接口集合，里面有不同实现的语音识别的接口):https://github.com/Uberi/speech_recognitionAI Agent大模型部分就比较多了，包括ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等等。Agent部分可以使用LangChain的模块去做自定义，里面基本包含了Agent实现的几个组件(https://www.langchain.com/)TTS微软的edge-tts：https://github.com/rany2/edge-tts，只能使用里面预设的人物声音，目前接口免费。VITS：https://github.com/jaywalnut310/vits，还有很多的分支版本，可以去搜索一下，vits系列可以自己训练出想要的人声。so-vits-svc:https://github.com/svc-develop-team/so-vits-svc，专注到唱歌上面，前段时间很火的AI孙燕姿。除了算法，人物建模模型可以通过手动建模(音频驱动)或者AIGC的方式生成人物的动态效果(例如wav2lip模型)实现，这样就完成了一个最简单的数字人。当然这种简单的构建方式还存在很多的问题，例如：如何生成指定人物的声音？TTS生成的音频如何精确驱动数字人口型以及做出相应的动作？数字人如何使用知识库，做出某个领域的专业性回答？