GPT-SoVITS 是一个用于声音克隆和文本到语音转换的开源 Python RAG 框架,具有以下特点和使用方法: 特点:
使用方法:
相关资源: GitHub:https://github.com/RVC-Boss/GPT-SoVITS 视频教程:https://bilibili.com/video/BV12g4y1m7Uw/
GPT-SoVITS:只需1分钟语音即可训练一个自己的TTS模型。GPT-SoVITS是一个声音克隆和文本到语音转换的开源Python RAG框架。5秒数据就能模仿你,1分钟的声音数据就能训练出一个高质量的TTS模型,完美克隆你的声音!根据演示来看完美适配中文,应该是目前中文支持比较好的模型。界面也易用。主要特点:1、零样本TTS:输入5秒的声音样本即可体验即时的文本到语音转换。2、少量样本训练:只需1分钟的训练数据即可微调模型,提高声音相似度和真实感。模仿出来的声音会更加接近原声,听起来更自然。跨语言支持:支持与训练数据集不同语言的推理,目前支持英语、日语和中文。3、易于使用的界面:集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具,帮助初学者更容易地创建训练数据集和GPT/SoVITS模型。4、适用于不同操作系统:项目可以在不同的操作系统上安装和运行,包括Windows。5、预训练模型:项目提供了一些已经训练好的模型,你可以直接下载使用。GitHub:[https://github.com/RVC-Boss/GPT-SoVITS](https://t.co/BpHX4SlsO3)[…](https://t.co/BpHX4SlsO3)视频教程:[https://bilibili.com/video/BV12g4y1m7Uw/](https://t.co/Uo7WtSSUGO)[…](https://t.co/Uo7WtSSUGO)[[twi]@小互(@_twi(1).mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/RymsbKdweody4Cxwtsqc7Yuenxd?allow_redirect=1)使用:
先剪出音频,使用https://elevenlabs.io/speech-synthesis或使用GPT-sovits[GPT-SoVITS实现声音克隆](https://waytoagi.feishu.cn/wiki/SVyUwotn7itV1wkawZCc7FEEnGg)克隆声音,做出文案的音频。[heading2]第二步[content]使用wav2lip整合包,导入视频和音频,对口型得到视频。基础wav2lip+高清修复整合包下载地址https://github.com/Rudrabha/Wav2Lip这就是目前的本地跑数字人的方案,效果都差不多,都是用的wav2lip产品https://synclabs.so/
?一键启动GPT-SoVITS让声音克隆变得简单至极,只需轻触,即启动个性化声音之旅。?创意无限AI技术不仅简化了声音克隆过程,更拓展了声音应用的边界,激发无限想象。?让AI成为你声音的画笔,绘制出独一无二的声音艺术作品。接下来一起,探索声音克隆的无限可能!开源项目:https://github.com/RVC-Boss/GPT-SoVITS[heading3]一、注册colab,启动准备[content]点击进入按照步骤注册即可[https://colab.research.google.com/#scrollTo=Wf5KrEb6vrkR&uniqifier=2](https://colab.research.google.com/#scrollTo=Wf5KrEb6vrkR&uniqifier=2)[heading4]新建笔记本[heading4]运行脚本启动GPT-So VITS[content]整个过程比较漫长,需要耐心等待,可以整个脚本一起运行,也可以一段一段段运行;[https://colab.research.google.com/drive/1Z4p4NTR7GYlQTn_MdMen9Xgul-V0CHza?usp=sharing](https://colab.research.google.com/drive/1Z4p4NTR7GYlQTn_MdMen9Xgul-V0CHza?usp=sharing)运行过程克隆项目代码库进入项目目录安装Python依赖包安装系统依赖下载NLTK资源启动Web UI[heading4]运行成功后出现public URL[heading4]训练音频准备与上传