以下是一些开源的数字人工具:
1. HeyGen:这是一个 AI 驱动的平台,能创建逼真的数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等应用。
2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。
3. DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入内容,平台的 AI 语音机器人能自动转换成语音并合成逼真的说话视频。
此外,还有一些相关的开源算法代码仓库:
1. ASR 语音识别:
openai 的 whisper:https://github.com/openai/whisper
wenet:https://github.com/wenete2e/wenet
speech_recognition(语音识别的接口集合):https://github.com/Uberi/speech_recognition
2. AI Agent:
大模型部分包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。
Agent 部分可使用 LangChain 的模块自定义,包含了 Agent 实现的几个组件:https://www.langchain.com/
3. TTS:
微软的 edgetts:https://github.com/rany2/edgetts,只能使用预设人物声音,目前接口免费。
VITS:https://github.com/jaywalnut310/vits,还有很多分支版本。
sovitssvc:https://github.com/svcdevelopteam/sovitssvc,专注于唱歌。
请注意,这些工具的具体功能和可用性可能会随时间和技术发展而变化。在使用时,请确保遵守相关使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。上周 HeyGen 工具创始人的演示视频刷屏,效果很好。LKS 也有相关的数字人介绍视频:https://www.bilibili.com/video/BV1vm4y1x7nm/?share_source=copy_web&vd_source=6c09aa7f53b69992e1cd572bbd2dbf94 。斯坦福 AI 小镇上周正式开源,相关论文链接:https://arxiv.org/abs/2304.03442 。
2024-11-19