GPTSoVITS 是一个用于声音克隆和文本到语音转换的开源 Python RAG 框架,具有以下特点:
1. 零样本 TTS:输入 5 秒的声音样本即可体验即时的文本到语音转换。
2. 少量样本训练:只需 1 分钟的训练数据即可微调模型,提高声音相似度和真实感,模仿出来的声音更接近原声且自然。
3. 跨语言支持:支持与训练数据集不同语言的推理,目前支持英语、日语和中文。
4. 易于使用的界面:集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具,帮助初学者更容易地创建训练数据集和 GPT/SoVITS 模型。
5. 适用于不同操作系统:项目可以在不同的操作系统上安装和运行,包括 Windows。
6. 预训练模型:项目提供了一些已经训练好的模型,可直接下载使用。
在一些数字人相关的方案中,声音克隆的步骤如下:
开源数字人组合方案中,第一步是先剪出音频,使用 https://elevenlabs.io/speechsynthesis 或 GPTSoVITS 克隆声音,做出文案的音频。
剪映数字人“个性化“—无限免费私模数字人的制作流程中,首先打开剪映,添加文本到文字轨道并修改好朗读文字,然后点击朗读进行声音克隆(剪映的声音克隆现在只用念一句话就可完成克隆),克隆完成后选择喜欢的数字人形象并换上克隆音色,最后一键智能生成字幕,自行调整文字样式并校准即可完成。
2024-08-22