Home/Question List/Question Detail

想要生成克隆某个人的声音，然后做成视频，怎么做

Answer

要生成克隆某个人的声音并做成视频，您可以按照以下步骤进行操作：

声音克隆：

准备一段需要克隆的音频（可以是类似屈原的古风声音，或自行录制一段）。
打开网站：https://fish.audio/zh-CN/train/new-model/ 。
上传准备好的音频，按照指引完成声音克隆。
进入声音库选择需要使用的声音，将第一步生成的文案输入，使用克隆好的声音生成对应的音频文件。
下载生成的音频文件备用。

视频合成：

在网上下载“回答我”的原视频。
打开 Viggle.ai 网站，登录后进入视频合成功能：https://viggle.ai/create-mix 。
上传“回答我”原视频和第二步生成的人物形象图，生成新版本的“回答我”视频。
预览效果，满意后下载合成好的新视频。

视频剪辑：

打开剪映软件（手机或电脑版均可）。
导入第二步合成好的新视频和第一步生成的音频文件。
将音频与视频时间轴对齐，确保声音和画面同步，添加字幕等。
如需叠加特殊背景，可以导入自己的背景图（如楚国风景）。
预览整个视频，检查效果，微调后导出最终视频（建议 MP4 格式）。

此外，您还可以参考以下工具：

数字人工具：开源且适合小白用户，特点是一键安装包，无需配置环境，简单易用。功能包括生成数字人视频，支持语音合成和声音克隆，操作界面中英文可选。系统兼容 Windows、Linux、macOS。模型支持 MuseTalk（文本到语音）、CosyVoice（语音克隆）。使用步骤：下载 8G+3G 语音模型包，启动模型即可。GitHub：https://github.com/modstart-lib/aigcpanel 官网：https://aigcpanel.com 。

希望这些信息对您有所帮助。

Content generated by AI large model, please carefully verify (powered by aily)

References

?回答我！全网爆火的AI古人骂人视频玩法｜小白保姆级教程（附提示词和变现玩法）?

这一步包含三个子步骤，逐步完成声音、视频和最终剪辑：3.1声音克隆工具：Fish Audio操作：1.准备一段需要克隆的音频（可以是类似屈原的古风声音，或自行录制一段）。2.打开网站：https://fish.audio/zh-CN/train/new-model/1.上传准备好的音频，按照指引完成声音克隆。1.进入声音库选择需要使用的声音，将第一步生成的文案输入，使用克隆好的声音生成对应的音频文件。1.下载生成的音频文件备用。3.2视频合成工具：Viggle.ai操作：1.在网上下载“回答我”的原视频。2.打开Viggle.ai网站，登录后进入视频合成功能。https://viggle.ai/create-mix1.上传“回答我”原视频和第二步生成的人物形象图。生成新版本的“回答我”视频。1.预览效果，满意后下载合成好的新视频。3.3视频剪辑工具：剪映操作：1.打开剪映软件（手机或电脑版均可）。2.导入3.2合成好的新视频和3.1生成的音频文件。3.将音频与视频时间轴对齐，确保声音和画面同步，添加字幕等。1.如需叠加特殊背景，可以导入自己的背景图（如楚国风景）。2.预览整个视频，检查效果，微调后导出最终视频（建议MP4格式）。

?回答我！全网爆火的AI古人骂人视频玩法｜小白保姆级教程（附提示词和变现玩法）

XiaoHu.AI日报

?Xiaohu.AI日报「12月29日」✨✨✨✨✨✨✨✨1⃣️?️数字人工具推荐：开源且适合小白用户特点：一键安装包，无需配置环境，简单易用。功能：生成数字人视频，支持语音合成和声音克隆，操作界面中英文可选。系统兼容：支持Windows、Linux、macOS。模型支持：MuseTalk（文本到语音）、CosyVoice（语音克隆）。使用步骤：下载8G+3G语音模型包，启动模型即可。?GitHub：[https://github.com/modstart-lib/aigcpanel](https://github.com/modstart-lib/aigcpanel)?官网：[https://aigcpanel.com](https://aigcpanel.com)?[https://x.com/imxiaohu/status/1872852432549765195](https://x.com/imxiaohu/status/1872852432549765195)2⃣️?Google Veo 2：AI生成逼真的Vlog视频效果：生成的视频接近真实，几乎难以分辨。应用：适合创作和内容制作。?[https://x.com/imxiaohu/status/1872984285634019476](https://x.com/imxiaohu/status/1872984285634019476)

Others are asking

声音克隆

GPTSoVITS 是一个用于声音克隆和文本到语音转换的开源 Python RAG 框架，具有以下特点和使用方法：特点：零样本 TTS：输入 5 秒的声音样本即可体验即时的文本到语音转换。少量样本训练：只需 1 分钟的训练数据即可微调模型，提高声音相似度和真实感，模仿出来的声音更接近原声且自然。跨语言支持：支持英语、日语和中文等不同语言的推理。易于使用的界面：集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具，方便初学者创建训练数据集和模型。适用于不同操作系统：可在包括 Windows 在内的多种操作系统上安装和运行。提供预训练模型：可直接下载使用。使用：开源数字人组合方案：第一步：先剪出音频，使用 https://elevenlabs.io/speechsynthesis 或 GPTSoVITS 克隆声音，做出文案的音频。第二步：使用 wav2lip 整合包，导入视频和音频，对口型得到视频。基础 wav2lip+高清修复整合包下载地址：https://github.com/Rudrabha/Wav2Lip 。 GPTSoVITS 实现 AIyoyo 声音克隆：前置数据获取处理：选择音频，开启切割。有噪音时，进行降噪处理。降噪处理完成，开启离线 ASR 。 GPTSowitsTTS：训练集格式化：开启一键三连，耐心等待。微调训练：开启 SoVITS 训练和 GPT 训练。推理：开始推理刷新模型选择微调后的模型 yoyo 。成功后会出现新的 URL ，表示声音微调完毕。声音复刻：可实现跨多语种语言的声音，如 AIyoyo 普通话满江红。 GitHub 地址：。

GPTSoVITS 是一个用于声音克隆和文本到语音转换的开源 Python RAG 框架，具有以下特点和使用步骤：特点： 1. 零样本 TTS：输入 5 秒的声音样本即可体验即时的文本到语音转换。 2. 少量样本训练：只需 1 分钟的训练数据即可微调模型，提高声音相似度和真实感，模仿出来的声音更接近原声且自然。 3. 跨语言支持：支持与训练数据集不同语言的推理，目前支持英语、日语和中文。 4. 易于使用的界面：集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具，帮助初学者更容易地创建训练数据集和 GPT/SoVITS 模型。 5. 适用于不同操作系统：项目可以在不同的操作系统上安装和运行，包括 Windows。 6. 提供预训练模型：项目提供了一些已经训练好的模型，可直接下载使用。使用步骤： 1. 前置数据获取处理：选择音频，开启切割。有噪音时，进行降噪处理。降噪处理完成，开启离线 ASR。 2. GPTSowitsTTS：训练集格式化：开启一键三连，耐心等待。微调训练：开启 SoVITS 训练和 GPT 训练。推理：开始推理刷新模型选择微调后的模型 yoyo。 3. 声音复刻：开启声音复刻之旅，可实现跨多语种语言的声音。相关资源： GitHub：https://github.com/RVCBoss/GPTSoVITS 视频教程：https://bilibili.com/video/BV12g4y1m7Uw/ 注册 colab 并启动准备：点击进入按照步骤注册即可 https://colab.research.google.com/scrollTo=Wf5KrEb6vrkR&uniqifier=2 ，新建笔记本，运行脚本启动 GPTSo VITS，整个过程比较漫长，需要耐心等待，可以整个脚本一起运行，也可以一段一段运行；运行过程包括克隆项目代码库、进入项目目录、安装 Python 依赖包、安装系统依赖、下载 NLTK 资源、启动 Web UI，运行成功后出现 public URL。实践样本： AIyoyo 普通话满江红 AIyoyo 粤语版满江红

2025-04-12

我想找一个克隆声音的网站

以下是一些可以克隆声音的网站： Elevenlabs.io speechify.com https://klingai.kuaishou.com/ Fish Audio：https://fish.audio/zhCN/train/newmodel/ （操作步骤：准备一段需要克隆的音频，打开网站上传音频，按照指引完成声音克隆，进入声音库选择需要使用的声音，输入文案生成音频文件并下载备用）

2025-03-31