Chat with Wiki - 好用的免费数字人ai

Answer

以下为您推荐一些好用的免费数字人 AI 工具及相关信息：

HEYGEN 优点：人物灵活，五官自然，视频生成很快。缺点：中文的人声选择较少。使用方法：

点击网址注册后，进入数字人制作，选择 Photo Avatar 上传自己的照片。
上传后效果如图所示，My Avatar 处显示上传的照片。
点开大图后，点击 Create with AI Studio，进入数字人制作。
写上视频文案并选择配音音色，也可以自行上传音频。
最后点击 Submit，就可以得到一段数字人视频。

D-ID 优点：制作简单，人物灵活。缺点：为了防止侵权，免费版下载后有水印。使用方法：

点击上面的网址，点击右上角的 Create vedio。
选择人物形象，可以点击 ADD 添加您的照片，或者使用 D-ID 给出的人物形象。
配音时，可以选择提供文字选择音色，或者直接上传一段音频。
最后，点击 Generate vedio 就可以生成一段视频。
打开自己生成的视频，可以下载或者直接分享给朋友。

KreadoAI 优点：免费（对于普通娱乐玩家很重要），功能齐全。缺点：音色很 AI。使用方法：

点击上面的网址，注册后获得 120 免费 k 币，这里选择“照片数字人口播”的功能。
点击开始创作，选择自定义照片。
配音时，可以选择提供文字选择音色，或者直接上传一段音频。
打开绿幕按钮，点击背景，可以添加背景图。
最后，点击生成视频。

剪映剪映作为字节跳动旗下的产品，具有以下优势：

在抖音平台上被广泛应用于短视频的创作和编辑中。
海外版 CapCut 登顶过美国 App Store，在全球各国 App Store 和 Google Play 平台上的安装总量已超过 2.5 亿次，在美国市场内的安装总量接近 950 万次。

制作流程：

首先打开剪映，然后添加一个文本到文字轨道，并修改好需要朗读的文字。
然后点击朗读，并进行声音克隆，剪映的声音克隆现在只用念一句话就可以完成克隆。
克隆完成后，选择喜欢的数字人形象，并把自己的克隆音色换上去。
最后，一键智能生成字幕，再自行调整文字样式并校准就完成了。

此外，还有一些关于数字人的技术信息：

算法驱动的数字人相关开源代码仓库：
- ASR 语音识别：openai 的 whisper（https://github.com/openai/whisper）、wenet（https://github.com/wenet-e2e/wenet）、speech_recognition（https://github.com/Uberi/speech_recognition）。
- AI Agent：大模型包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。Agent 部分可以使用 LangChain 的模块去做自定义（https://www.langchain.com/）。
- TTS：微软的 edge-tts（https://github.com/rany2/edge-tts），只能使用里面预设的人物声音，目前接口免费；VITS（https://github.com/jaywalnut310/vits），还有很多的分支版本；so-vits-svc（https://github.com/svc-develop-team/so-vits-svc），专注到唱歌上面。

人物建模模型可以通过手动建模（音频驱动）或者 AIGC 的方式生成人物的动态效果（例如 wav2lip 模型）实现。但这种简单的构建方式还存在一些问题，例如如何生成指定人物的声音、TTS 生成的音频如何精确驱动数字人口型以及做出相应的动作、数字人如何使用知识库做出某个领域的专业性回答等。

Content generated by AI large model, please carefully verify (powered by aily)

References

AI 数字人｜一键让照片说话

优点：人物灵活，五官自然，视频生成很快。五星好评。缺点：中文的人声选择较少[heading3]使用方法[content]1.点击网址注册后，进入数字人制作，选择Photo Avatar上传自己的照片1.上传后效果如图所示，My Avatar处显示上传的照片1.点开大图后，点击Create with AI Studio，进入数字人制作1.写上视频文案并选择配音音色，也可以自行上传音频1.最后点击Submit，就可以得到一段数字人视频啦～[heading2]D-ID[content]优点：制作简单，人物灵活缺点：为了防止侵权，免费版下载后有水印[heading3]使用方法[content]1.点击上面的网址，点击右上角的Create vedio1.选择人物形象，你可以点击ADD添加你的照片，或者使用D-ID给出的人物形象1.配音时，你可以选择提供文字选择音色，或者直接上传一段音频1.最后，点击Generate vedio就可以生成一段视频啦1.打开自己生成的视频，可以下载或者直接分享给朋友~[heading2]KreadoAI[content]优点：免费（对于普通娱乐玩家，嗯这很重要），功能齐全缺点：音色很ai[heading3]使用方法[content]1.点击上面的网址，注册后获得120免费k币，这里选择“照片数字人口播”的功能1.点击开始创作，选择自定义照片1.配音时，你可以选择提供文字选择音色，或者直接上传一段音频1.打开绿幕按钮，点击背景，可以添加背景图1.最后，点击生成视频

方案：剪映数字人“个性化“—无限免费私模数字人

剪映作为字节跳动旗下的产品，在抖音平台上，被广泛应用于短视频的创作和编辑中。剪映海外版CapCut登顶过美国App Store，在全球各国App Store和Google Play平台上的安装总量已超过2.5亿次，在美国市场内的安装总量接近950万次。剪映的“魔力”是什么？我们不妨来盘点一下剪映已有的AI功能这六大AI功能基本上解决了我们用数字人做视频的痛点，不需要反复跳出剪映，在编辑器里就能过完成脚本生成→语音克隆→数字人口播的环节。那下面就让我带大家手把手做一个数字人口播视频剪映下载地址：[https://www.capcut.cn/](https://www.capcut.cn/)capcut下载地址：[https://www.capcut.com](https://www.capcut.com)[heading1]制作流程[content]首先我们打开剪映，然后添加一个文本到文字轨道，并修改好需要朗读的文字；然后点击朗读，并进行声音克隆，剪映的声音克隆现在只用念一句话就可以完成克隆；克隆完成后，选择喜欢的数字人形象，并把自己的克隆音色换上去；最后，一键智能生成字幕，再自行调整文字样式并校准叫完成了。[heading1]成果视频

AI 数字人-定义数字世界中的你

[title]AI数字人-定义数字世界中的你[heading2]一、数字人简介[heading4]1.2算法驱动的数字人上述算法开源的代码有很多，这里列出一些仓库供大家参考：ASR语音识别openai的whisper:https://github.com/openai/whisperwenet:https://github.com/wenet-e2e/wenetspeech_recognition(这是一个语音识别的接口集合，里面有不同实现的语音识别的接口):https://github.com/Uberi/speech_recognitionAI Agent大模型部分就比较多了，包括ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等等。Agent部分可以使用LangChain的模块去做自定义，里面基本包含了Agent实现的几个组件(https://www.langchain.com/)TTS微软的edge-tts：https://github.com/rany2/edge-tts，只能使用里面预设的人物声音，目前接口免费。VITS：https://github.com/jaywalnut310/vits，还有很多的分支版本，可以去搜索一下，vits系列可以自己训练出想要的人声。so-vits-svc:https://github.com/svc-develop-team/so-vits-svc，专注到唱歌上面，前段时间很火的AI孙燕姿。除了算法，人物建模模型可以通过手动建模(音频驱动)或者AIGC的方式生成人物的动态效果(例如wav2lip模型)实现，这样就完成了一个最简单的数字人。当然这种简单的构建方式还存在很多的问题，例如：如何生成指定人物的声音？TTS生成的音频如何精确驱动数字人口型以及做出相应的动作？数字人如何使用知识库，做出某个领域的专业性回答？