与知识库对话 - 豆包如何克隆声音

回答

以下是关于克隆声音的相关信息：

ElevenLabs 推出了全自动化的 AI 配音或视频翻译工具。您只需上传视频或粘贴视频链接，它能在几十秒到几分钟内将视频翻译成 29 种语言，还能克隆原视频中的声音进行配音。群友瑞华进行了测试，相关视频链接为：2080_1706113804.mp4 、2081_1706113807.mp4 、2082_1706113840.mp4 、2083_1706113844.mp4 。另外，有群友测试了豆包的音色模仿，读大概 20 个字的句子，5 秒就能生成非常像的音色，之后可用自己的声音读生成的文字内容。
在 Heygen 等网站可以自助购买声音克隆服务。
MiniMax 有两个适合任务的大模型（豆包的也不错）：MiniMax-Text-01 支持 400 万 token 的上下文，T2A v2（speech-01-turbo）拥有最好的声音复刻效果。可通过其开放平台 https://platform.minimaxi.com/login 进行注册登录及实名认证。首次注册会赠送 15 元，无需充值就能玩。接着创建 API Key 并保存好，还可以克隆声音，链接为：https://platform.minimaxi.com/examination-center/voice-experience-center/voiceCloning 。克隆时有几个地方要填：创建 voice id、上传复刻音频（10 - 300 秒，尽量安静）、上传音频 prompt（不超过 8 秒的声音）、试听文本（不超过 8 秒声音所念内容），然后勾选用户协议，点击“克隆”选项，过一段时间完成克隆。使用填写的 voice id 生成声音，即为克隆音色生成的声音。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

ElevenLabs推出一个全自动化的AI配音或视频翻译工具。你只需要上传视频或者粘贴视频链接，这个工具就能全自动的在几十秒到几分钟内将你的视频翻译成29种语言。更牛P的是直接克隆原视频里面的声音，来给你配音。群友瑞華测试：[2080_1706113804.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/HQ8sb2smBodPZpxOX2och4DmnIc?allow_redirect=1)[2081_1706113807.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/OVuvbds5XoxSjpx8lPmcUqtEnsg?allow_redirect=1)[2082_1706113840.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/VJzQbRRdZoOgSdx2eXicmfn8nHd?allow_redirect=1)[2083_1706113844.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/N2avbWxMZoVKxSxswcucQ27encf?allow_redirect=1)另外刚才有群友试了下豆包的音色模仿，读了大概20个字的句子，5s就可以生成非常像的音色，之后就可以用你自己的声音读生成的文字内容了。声音音色的模仿非常像了

张翼然：AI引领未来课堂的探索与实践.pdf

Elevenlabs.iospeechify.com声音克隆（以豆包为例）AI音色克隆+驱动嘴形可以在Heygen等网站自助购买服务低成本制作自己的数字人分身视频生成Discord（类似QQ频道）用runway让互联网梗图动起来https://klingai.kuaishou.com/用lumalabs.ai让图片动起来用heyGen定制“数字分身”今天，在个⼈、机构、企业、国际组织、乃⾄国家之间，在⼈⼯智能创新应⽤⽅⾯，知道与不知道，能⽤与不能⽤，会⽤与不会⽤，善⽤与不善⽤之间，将会存在一个史⽆前例的、导致强者更强⽽弱者愈弱的、超级巨⼤的数字鸿沟，它就是⼈⼯智能鸿沟。——焦建利1.5.融合/驾驭4.定制（智能体）/RAG3.用好（提示语）2.学习并使用1.知道没用过生成式人工智能教育应用五种境界（jiao,2024）拥抱新技术，与时俱进，做AI时代的技术派教师智慧课程培育建设暨人工智能赋能教学创新工作坊(三)2024年9月20日—9月23日云南·昆明苏永康/上海交通大学张翼然/湖南农业大学

AI编程与炼金术：Build on Trae

MiniMax有两个大模型是非常适合咱们这次任务的（豆包的也很不错）：1.MiniMax-Text-01，支持400万token的上下文，对于咱们可能需要总结的超长文章也能应付；2.T2A v2（speech-01-turbo），拥有最好的声音复刻效果我们可以通过它的开放平台进行注册登录，包括实名认证https://platform.minimaxi.com/login这里要说一下，API消耗是会消耗余额的，根据我的经验，生成一条3分钟的语音文本模型会消耗1分钱语音模型会消耗5毛钱以及克隆音色还需要一笔额外的费用，现在优惠是9.9元：首次注册会赠送15元，我们无需充值就能玩啦！接着，需要你创建一个API Key，也就是密钥，然后保存好，后面用来替换：以及groupid：以及，可以克隆一下声音：https://platform.minimaxi.com/examination-center/voice-experience-center/voiceCloning这里有几个地方要填：1.创建voice id，上图已经注明了要求；2.上传复刻音频，直接上传文件，用你手机录制即可，注意在10-300s之间，尽量安静；3.上传音频prompt（这一段很重要，录制不超过8s的声音）4.试听文本（这不超过8s的声音你念了什么？写下来）然后勾选用户协议，点击“克隆”选项，过一段时间就会完成克隆。使用刚才你填写的voice id来生成声音，就是用克隆你的音色去生成的。好的，到这里，你已经完成了准备工作，下面我们可以来开发了：