声音复刻主要通过 GPTSoVITS 来实现,以下是相关步骤和信息:
1. 前置数据获取处理:
选择音频并进行切割。
若有噪音,进行降噪处理。
降噪处理完成后,开启离线 ASR。
2. GPTSowitsTTS:
训练集格式化:开启一键三连,耐心等待。
微调训练:开启 SoVITS 训练和 GPT 训练。
推理:开始推理,刷新模型,选择微调后的模型(如 yoyo)。
3. 声音复刻:开启声音复刻之旅,可实现跨多语种语言的声音。
4. 实践的样本:
AIyoyo 普通话 满江红
AIyoyo 粤语版 满江红
GPTSoVITS 是一个声音克隆和文本到语音转换的开源 Python RAG 框架,具有以下特点:
1. 零样本 TTS:输入 5 秒的声音样本即可体验即时的文本到语音转换。
2. 少量样本训练:只需 1 分钟的训练数据即可微调模型,提高声音相似度和真实感。
3. 跨语言支持:支持与训练数据集不同语言的推理,目前支持英语、日语和中文。
4. 易于使用的界面:集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具,帮助初学者更容易地创建训练数据集和 GPT/SoVITS 模型。
5. 适用于不同操作系统:项目可以在不同的操作系统上安装和运行,包括 Windows。
6. 预训练模型:项目提供了一些已经训练好的模型,你可以直接下载使用。
GitHub:
视频教程:
此外,还有以下开源 TTS 数据可供参考:
|汇总|大量语音数据的汇总|
||||
|TTS|WenetSpeech4TTS|12,800 小时的配对音频 文本数据|
|TTS|
|TTS|
|TTS|赛博朋克 2077|请注意版权问题!|
|TTS中文|
|TTS中文|
|TTS中文|
|TTS中文|
|TTS中文|zhvoice|3200 说话人 900 小时,用于声音复刻,合成,识别等|
|TTS英文|LibriTTS|基于 Librispeech 筛选而来,更适合用于做 TTS,采样率 24k,大约 585 小时 2,456 人,其中的 trainclean100 包含 53.8 小时/247 个发言人|
|TTS英文|LJ Speech|大约 24 小时|
2024-12-16