Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

阿里开源的数字人

Answer

阿里开源的数字人相关信息如下:

在构建高质量的 AI 数字人方面,建好的模型可以使用 web 前端页面(Live2D 就提供了 web 端的 SDK)或者 Native 的可执行程序进行部署,最后呈现在用户面前的是一个 GUI。笔者的开源数字人项目(项目地址:https://github.com/wan-h/awesome-digital-human-live2d)选择了 live2d 作为数字人躯壳,因为这类 SDK 的驱动方式相比现在的 AI 生成式的方式更加可控和自然,相比虚幻引擎这些驱动方式又更加轻量和简单;另外超写实的数字人风格在目前的技术能力下,处理不好一致性问题,容易带来虚假的感觉或者产生恐怖谷效应,而卡通二次元的形象给人的接受度更高。关于 live2d 的 SDK 驱动方式可以参考官方示例:https://github.com/Live2D 。

Content generated by AI large model, please carefully verify (powered by aily)

References

1.7 AI 数字人+语音合成

互联网厂商腾讯:[智能数智人](https://cloud.tencent.com/product/ivh)阿里:[虚拟数字人](https://www.aliyun.com/product/ai/avatar?spm=5176.21213303.8115314850.1.72de53c9pdvu6T&scm=20140722.S_card@@%E4%BA%A7%E5%93%81@@1161322.S_card0.ID_card@@%E4%BA%A7%E5%93%81@@1161322-RL_%E6%95%B0%E5%AD%97%E4%BA%BA-OR_ser-V_2-P0_0)百度:[曦灵数字人](https://www.notion.so/158039ec85d84f7789bca030b614e8c0?pvs=21)华为:[MetaStudio](https://www.huaweicloud.com/product/mdh.html)网易:[瑶台](https://yaotai.163.com/)京东:[言犀](https://yanxi.jd.com/)字节:[虚拟形象生产平台](https://www.volcengine.com/product/virtualavatar)快手:[StreamLake虚拟人](https://www.streamlake.com/product/digital-human)科大讯飞:[讯飞智声](https://zhisheng.xunfei.cn/#/ai-anchor)

大厂AIGC实践

[阿里|电商设计师视角下的AI解读与应用10-22 10:45](https://www.yuque.com/wikidesign/vngzgk/hv2fp8u64g9mx4wp)[阿里| AI引领,畅想未来办公的无限可能10-22 10:45](https://www.yuque.com/wikidesign/vngzgk/evu4q82cxnrrfpg0)[阿里|当AI成为大众的新朋友10-22 10:45](https://www.yuque.com/wikidesign/vngzgk/cieygg04sx6knc9z)[阿里|AI新形态,数字人带你探索未来生活体验升级10-22 10:45](https://www.yuque.com/wikidesign/vngzgk/gg8zd0lka53drpqz)[阿里|让AI模型更加平易近人|ModelScope模型开源社区设计实践10-22 10:45](https://www.yuque.com/wikidesign/vngzgk/klzcf5g0xfu345oh)[阿里|S03E05:当设计遇见AI,智能设计的践行者——2022阿里云设计中心年鉴10-22 10:45](https://www.yuque.com/wikidesign/vngzgk/iq3fbxzkncwfynmf)[蚂蚁|一览无遗,让收银更快捷-支付宝智能AI秤10-22 10:45](https://www.yuque.com/wikidesign/vngzgk/xabu3ad5sx078nbk)[蚂蚁|玩转AI,探索绘图新世界10-22 10:45](https://www.yuque.com/wikidesign/vngzgk/dhyxlhhtirvv4db2)

AI 数字人-定义数字世界中的你

建好的模型可以使用web前端页面(Live2D就提供了web端的SDK)或者Native的可执行程序进行部署,最后呈现在用户面前的是一个GUI。笔者的开源数字人项目(项目地址:https://github.com/wan-h/awesome-digital-human-live2d)选择了live2d作为数字人躯壳,因为这类SDK的驱动方式相比现在的AI生成式的方式更加可控和自然,相比虚幻引擎这些驱动方式又更加轻量和简单;另外超写实的数字人风格在目前的技术能力下,处理不好一致性问题,容易带来虚假的感觉或者产生恐怖谷效应,而卡通二次元的形象给人的接受度更高。关于live2d的SDK驱动方式可以参考官方示例:https://github.com/Live2D。

Others are asking
自动生成提示词的开源工具有哪些
以下是一些自动生成提示词的开源工具: 1. Freepik 推出的 Reimagine AI 工具:用户上传图片即可自动生成提示词,无需输入文字。它还能实时提供无限滚动结果展示,边操作边生成图像,通过调整提示词实时修改图片细节,并支持多种风格切换。相关链接:https://freepik.com/pikaso/reimagine 、https://x.com/imxiaohu/status/1770437135738581414?s=20 2. StreamMultiDiffusion 项目:使用区域文本提示实时生成图像,具有交互式操作体验,每个提示控制一个区域,实现精准图像生成。相关链接:https://arxiv.org/abs/2403.09055 、https://github.com/ironjr/StreamMultiDiffusion?tab=readmeovfile 、https://huggingface.co/spaces/ironjr/SemanticPalette 、https://x.com/imxiaohu/status/1770371036967850439?s=20 3. 【SD】自动写提示词脚本 One Button Prompt:可以在主菜单输入人物提示词,在“高级”中设置提示词混合,还具有一键运行放大的模块,包括完整的文生图放大和图生图放大,甚至可接入其他脚本和 controlnet。获取方式:添加公众号【白马与少年】,回复【SD】。
2025-04-12
开源flux模型如何快速使用
以下是关于开源 Flux 模型快速使用的方法: 1. 模型的下载: 如果因为环境问题,可以在网盘中下载。 siglipso400mpatch14384(视觉模型):siglip 由 Google 开发的视觉特征提取模型,负责理解和编码图像内容。工作流程包括接收输入图像、分析图像的视觉内容并将这些视觉信息编码成一组特征向量。打开 ComfyUI\models\clip,在地址栏输入 CMD 回车,打开命令行,输入下面的命令拉取模型(也可以在网盘里下载)。 image_adapter.pt(适配器):连接视觉模型和语言模型,优化数据转换。工作流程包括接收来自视觉模型的特征向量、转换和调整这些特征,使其适合语言模型处理。通过 https://huggingface.co/spaces/fancyfeast/joycaptionprealpha/tree/main/wpkklhc6 下载,放到 models 的 Joy_caption 文件夹里,如果该文件夹不存在,就新建一个。 MetaLlama3.18Bbnb4bit(语言模型):大型语言模型,负责生成文本描述。工作流程包括接收经过适配器处理的特征、基于这些特征生成相应的文本描述、应用语言知识来确保描述的连贯性和准确性。打开 ComfyUI\models\LLM,地址栏输入 CMD 回车,在命令行里面输入下面命令。 2. 下载地址: ae.safetensors 和 flux1dev.safetensors 下载地址:https://huggingface.co/blackforestlabs/FLUX.1dev/tree/main 。 准备了夸克和百度的网盘链接,方便部分同学下载: flux 相关模型(体积较大)的夸克网盘链接:https://pan.quark.cn/s/b5e01255608b 。 flux 相关模型(体积较大)的百度网盘链接:https://pan.baidu.com/s/1mCucHrsfRo5SttW03ei0g?pwd=ub9h 提取码:ub9h 。 如果 GPU 性能不足、显存不够,底模可以使用 fp8 的量化版模型,速度会快很多,下载地址:https://huggingface.co/Kijai/fluxfp8/tree/main 。 3. 工作流下载: 最后我们再下载 dev 的工作流: 。或者下面官方原版的图片链接,图片导入 comfyUI 就是工作流:https://comfyanonymous.github.io/ComfyUI_examples/flux/flux_dev_example.png 。我们打开 ComfyUI,把工作流或图片拖拽到 ComfyUI 里。
2025-04-08
开源AI Agent软件有哪些
以下是一些开源的 AI Agent 软件: 1. AutoGPT 和 BabyAGI:在去年 GPT4 刚发布时风靡全球科技圈,给出了让 LLM 自己做自动化多步骤推理的解题思路。 2. Coze:新一代的一站式 AI Bot 开发平台,适用于构建基于 AI 模型的各类问答 Bot,集成了丰富的插件工具。 3. Mircosoft 的 Copilot Studio:主要功能包括外挂数据、定义流程、调用 API 和操作,以及将 Copilot 部署到各种渠道。 4. 文心智能体:百度推出的基于文心大模型的智能体(Agent)平台,支持开发者根据自身需求打造大模型时代的产品能力。 5. MindOS 的 Agent 平台:允许用户定义 Agent 的个性、动机、知识,以及访问第三方数据和服务或执行设计良好的工作流。 6. 斑头雁:2B 基于企业知识库构建专属 AI Agent 的平台,适用于客服、营销、销售等多种场景,提供多种成熟模板,功能强大且开箱即用。 7. 钉钉 AI 超级助理:依托于钉钉强大的场景和数据优势,在处理高频工作场景如销售、客服、行程安排等方面表现出色。 此外,智谱·AI 开源的语言模型中也有与 Agent 相关的,如 AgentLM7B、AgentLM13B、AgentLM70B 等。
2025-03-29
mcp 有什么开源的方案吗
Anthropic 于 2024 年 11 月推出并开源了 MCP(模型上下文协议)。MCP 就像一个“转接头”或“通用插座”,能统一不同的外部服务,如 Google Drive、GitHub、Slack、本地文件系统等,通过标准化接口与大语言模型对接。开发者基于 MCP 规范开发一次“接口适配器”(MCP 服务器),就能让所有兼容 MCP 的模型(MCP 客户端)无缝接入,无需针对每个模型单独适配,大幅提升兼容性与开发效率。MCP 里面还包含 SSE(ServerSent Events),是一种允许服务器向浏览器推送实时更新的技术。MCP 像为 AI 模型量身定制的“USBC 接口”,可以标准化地连接 AI 系统与各类外部工具和数据源。与传统 API 相比,MCP 是单一协议,只要一次整合就能连接多个服务;具有动态发现功能,AI 模型能自动识别并使用可用的工具;支持双向通信,模型不仅能查询数据,还能主动触发操作。相关链接:
2025-03-27
帮我列举2025年3月1日以来,国内外、闭源开源模型厂商的更新记录。
以下是 2025 年 3 月 1 日以来,国内外、闭源开源模型厂商的部分更新记录: 2025 年 3 月 20 日,OpenAI 推出了一套全新的音频模型,旨在通过 API 为开发者提供更智能、更可定制的语音代理支持,包括改进的语音转文本和文本转语音功能,为语音交互应用带来显著提升。 李开复公开表示 OpenAI 面临生存危机,商业模式不可持续。他强调中国的 DeepSeek 以极低成本提供接近的性能,开源模式将主导未来 AI 发展。他认为企业级 AI 应用将成为投资重点,资源限制反而促进了创新。李开复大胆预测,中国将出现三大 AI 玩家,竞争愈发激烈。 SuperCLUE 发布《中文大模型基准测评 2025 年 3 月报告》,指出 2022 2025 年经历多阶段发展,国内外模型差距缩小。测评显示 o3mini总分领先,国产模型表现亮眼,如 DeepSeekR1 等在部分能力上与国际领先模型相当,且小参数模型潜力大。性价比上,国产模型优势明显。DeepSeek 系列模型深度分析表明,其 R1 在多方面表现出色,蒸馏模型实用性高,不同第三方平台的联网搜索和稳定性有差异。 以上信息来源包括: 《》 《》 《》
2025-03-26
现在Ai作图用什么?还是以前的Stable Diffusion吗?还是又出现了新的开源软件?
目前在 AI 作图领域,Stable Diffusion 仍然是常用的工具之一。Stable Diffusion 是 AI 绘画领域的核心模型,能够进行文生图和图生图等图像生成任务,其完全开源的特点使其能快速构建强大繁荣的上下游生态。 除了 Stable Diffusion,也出现了一些新的相关开源软件和工具,例如: :Stability AI 开源的 AI 图像生成平台。 :拥有超过 700 种经过测试的艺术风格,可快速搜索查找各类艺术家,并支持一键复制 Prompt。 同时,市面上主流的 AI 绘图软件还有 Midjourney,其优势是操作简单方便,创作内容丰富,但需要科学上网并且付费。如果您想尝试使用 Stable Diffusion,可以参考 B 站【秋葉 aaaki】这个 Up 主的视频了解具体的安装方法。
2025-03-24
了解学习阿里云百炼
阿里云百炼是基于通义系列大模型和开源大模型打造的一站式大模型服务平台,具有以下特点和优势: 提供「生成式大模型的应用编排搭建能力」和「企业大模型的全链路训练部署能力」,是企业 AI 时代的首选。 核心能力和优势: 大模型 API 服务:高可用、高性能、高性价比,提供通义闭源和开源系列大模型,以及图片、语音等多模态大模型和国内优质三方大语言模型。 AI 应用搭建:可观测、可干预、可追踪,提供 RAG 智能体应用、工作流编排和智能体编排三类使用场景的应用构建能力,以及包含插件能力、运营工具箱等适配工具,实现 10 分钟拖拉拽快速搭建 AI Agent。 同时提供很多行业级的解决方案,如短剧剧本创作、企业线索挖掘、泛企业 VOC 挖掘等。 其能力以原子级别的能力出售,即 API 能力,可结合日常场景进行二次加工应用。 体验相关: 百炼大模型平台体验入口:https://bailian.console.aliyun.com//home (需要登陆阿里云账号,也可以使用支付宝、钉钉、手机号快速注册登陆)。 建议注册后先进行实名认证,方便后续的一系列体验工作,以及领取一些免费的学习云资源。 此外,还有以下相关内容: 第一期「AI 实训营」手把手学 AI 中,本期共学直播地址:会议时间为 20:00 21:30 。 「第一天」COW 项目中,此教程是为 COW 项目接入千问、百炼而作,使用此教程的前提是已完成 COW 机器人的搭建,或者准备进行搭建。百炼首页:https://bailian.console.aliyun.com/ 。在调用阿里云的 AI 服务时有两种方式,一是直接调用模型,如通义千问系列以及其他的大模型产品服务。
2025-04-14
阿里集团投资了哪几个大模型公司
阿里投资的大模型公司主要有月之暗面和 MiniMax 。 去年底,阿里开始密切接触当时大模型公司中排位相对靠后的月之暗面,并在 2024 年春节前谈定投资,大手笔投资近 8 亿美元,持股比例约 40%,月之暗面投后估值来到 23.4 亿美元。 此外,阿里在今年初投资了 MiniMax 约 6 亿美元。
2025-03-28
阿里的千问大模型在行业内处于一个什么样的水平
阿里的通义千问大模型在行业内处于领先水平。 通义千问 2.5 正式发布并开源 1100 亿参数模型,在多模态和专有能力模型方面影响力强大,始终坚持开源路线,已推出多款开源模型,受到开发者和生态伙伴的热情支持。百炼平台也升级支持企业 RAG 链路,提供更灵活的企业级检索增强服务。通义灵码推出企业版,满足企业定制化需求,已在多个领域落地应用。 Qwen2.5Max 基于 SFT 和 RLHF 策略训练,在多项基准如 Arena Hard、LiveBench、LiveCodeBench、GPQADiamond 上超越 DeepSeek V3,引发社区关注。支持官方 Chat、API 接口、Hugging Face Demo 等多种方式,展示其顶尖性能与灵活应用场景。 Qwen2.5VL 是新一代视觉语言模型,可解析 1 小时以上视频内容并秒级定位事件,识别从金融文档到通用物体,动态适配高分辨率图像。具备复杂任务执行能力,覆盖更多实际场景如票据解析、商业分析等。 10 月 31 日,阿里云正式发布千亿级参数大模型通义千问 2.0,8 大行业模型同步上线。
2025-03-14
阿里巴巴详情页生成
使用 AI 完成阿里巴巴营销技巧和产品页面优化,可以参考以下步骤: 1. 市场分析:借助 AI 分析工具研究市场趋势、消费者行为及竞争对手情况,快速获取产品受欢迎程度、价格区间、销量等关键信息。 2. 关键词优化:利用 AI 分析并推荐高流量、高转化的关键词,优化产品标题和描述,提升搜索排名与可见度。 3. 产品页面设计:通过 AI 设计工具,依照市场趋势和用户偏好自动生成吸引人的产品页面布局。 4. 内容生成:运用 AI 文案工具创作有说服力的产品描述和营销文案,提高转化率。 5. 图像识别和优化:依靠 AI 图像识别技术选择或生成高质量产品图片,更好地吸引顾客并展示产品特点。 6. 价格策略:让 AI 分析不同价格点对销量的影响,制定有竞争力的价格策略。 7. 客户反馈分析:借助 AI 分析客户评价和反馈,了解客户需求,优化产品和服务。 8. 个性化推荐:利用 AI 根据用户购买历史和偏好提供个性化产品推荐,增加销售额。 9. 聊天机器人:采用 AI 驱动的聊天机器人提供 24/7 客户服务,解答疑问,提高客户满意度。 10. 营销活动分析:依靠 AI 分析不同营销活动效果,了解哪些活动更能吸引顾客并产生销售。 11. 库存管理:使用 AI 帮助预测需求,优化库存管理,减少积压和缺货情况。 12. 支付和交易优化:通过 AI 分析不同支付方式对交易成功率的影响,优化支付流程。 13. 社交媒体营销:利用 AI 帮助卖家在社交媒体上找到目标客户群体,进行精准营销提高品牌知名度。 14. 直播和视频营销:借助 AI 分析观众行为,优化直播和视频内容,提高观众参与度和转化率。
2025-03-11
如何使用阿里PAI部署大模型
以下是使用阿里 PAI 部署大模型的步骤: 1. 模型部署: 选中模型卡片,出现部署按钮。 选择 vLLM 部署。 小插曲:竞价系统(用更便宜的价格部署模型)。 部署完成后在 EAS 服务中可以找到 API 的 endpoint 和 key 信息。 同样在 EAS 服务中可以查看部署情况和日志,如果竞价获得不了资源,可以适当调整价格。 在 EAS 服务中可以直接尝试试用模型。 调试方法:Get models 方法需要用 vllm 框架部署才能支持;chat 方法,比如 7b 的蒸馏模型就换成相应的设置。 尝试部署一个 qwen2.5 7b instruct 的原生模型,并测试问题“9.11 和 9.9 的大小?” 2. 蒸馏>数据: 在本地的 python 环境中或 notebook gallery 里建立一个实例来执行 python。 执行相关代码,最终会获得一个 json 文件,即蒸馏出来的数据集。通常需要检查数据的正确性,再进行下一步的训练微调过程。 3. 作业: 在阿里云 PAI 平台上部署一个模型,并调试验证确认自己的部署成功。 调试信息中修改 content 的内容,必须在 content 内容中带上自己的钉钉“昵称”来向大模型对话。 在截止时间 2025/03/05 之前,将自己调试成功的效果截图(截图中的“content”内必须带着自己的钉钉),提交到「问卷地址」。 4. 模型蒸馏微调: 由于上一步中蒸馏的数据集很小,不足以改变模型权重,因此使用一个别人做好的数据集。在使用前可以打开看下里面的结构,和蒸馏出来的数据结构一致。 建立用于训练的数据集:下载并解压数据集,然后在 PAI 平台的数据集中找到 OSS 存储,建立数据集,然后上传数据集。 开始部署模型进行训练:选择 7b instruct 的原生模型,选择训练。选择全参微调,并选择自定义数据集。注意超参配置。 训练要求需要使用灵骏的资源,比如 8 卡 H100,需要的显存比较大。点击训练,在 DLC 里看到相应状态就是训练成功。 训练完成就可以测试模型效果:在 model gallery 里面找到训练好的模型,点击右上角的部署,使用 vllm 部署。部署完成后,使用相应命令调试。
2025-03-04
市面上还有阿里百炼平台类似的竞品吗? 我的意思是工作流
市面上与阿里百炼平台类似的工作流竞品有以下几种: 1. 智谱 GLM4V:通用视觉类大模型,拍立得最早使用的模型,接口响应速度快,指令灵活性差一些,一个接口支持图片/视频/文本,视频和图片类型不能同时输入,调用成本为 0.05 元/千 tokens,可参考。 2. 阶跃星辰:通用视觉类大模型,响应速度快,支持视频理解,输入成本为 0.005~0.015/千 tokens,输出成本为 0.02~0.07/千 tokens,可参考。 3. 百度 PaddlePaddle:OCR 垂直小模型,文本识别能力补齐增强,私有化部署服务费,API 调用在 0.05~0.1/次,开源地址为。
2025-02-21
想要做一节讲如何用智能体做企业数字化转型的课程,如何设计
以下是关于如何设计用智能体做企业数字化转型课程的建议: 一、参考案例 1. 李国宝的相关经验 具有丰富的从业经验,包括通信工程、数据通信网络培训、创业、网络安全解决方案及培训、AI 课程开发与培训等。 开发过面向不同群体的 AI 课程,如《数字化转型实践》面向传统企业数字化、AI 赋能转型。 2. 90 分钟从 0 开始打造你的第一个 Coze 应用课程 从零开始教学做应用界面,先基础教学,再涉及特定应用。 介绍当前承接业务,包括辅导、培训、定制及企业 AI 落地等。 挖掘用户对 AI 应用的功能需求,如对交互界面的需求。 二、课程设计要点 1. 对于企业管理者 AI 辅助决策:在小规模决策中使用 AI 分析工具,以其分析结果作为决策参考。 员工培训计划:制定 AI 工具使用的培训计划,帮助团队成员了解日常工作中如何有效利用 AI。 流程优化:识别公司中可能受益于 AI 自动化的重复性任务,从小流程开始测试 AI 解决方案的效果。 AI 伦理和政策:制定公司的 AI 使用政策,确保 AI 应用符合伦理标准和法律要求。 2. 对于教育工作者 AI 辅助教案设计:尝试使用 AI 帮助设计课程大纲或生成教学材料 ideas,为课程带来新视角。 个性化学习路径:探索使用 AI 分析学生学习数据,为不同学生制定个性化学习计划。 创新教学方法:考虑将 AI 工具整合到课堂活动中,如使用 AI 生成的案例研究或模拟场景。 AI 素养教育:开发简单的课程模块,教导学生了解 AI 基础知识、应用领域及其对社会的影响。 三、注意事项 无论面向哪个群体,都应记住:与 AI 协作是一个学习过程。从小处着手,保持好奇心和开放态度,会发现 AI 不仅能提高工作效率,还能激发创造力,开拓新的可能性。最重要的是,始终保持批判性思维,将 AI 视为强大的工具,而不是完全依赖的解决方案。
2025-04-18
你是福州市政府工作人员,中国移动拟邀请福州市委书记参加中国移动人工智能生态大会并致辞,该大会是第八届数字峰会的组成部分,需要撰写市委书记的致辞稿,需要中国移动准备哪些素材,请告诉我提示词
以下是为您整理的相关内容: 《促进创新的人工智能监管方法》:包含了关于通用人工智能价值链、相关案例研究以及对人工智能监管框架的探讨等内容。 陶力文律师关于律师写好提示词用好 AI 的方法:包括初始化的欢迎语、遵循的规则、获取案例洞察报告和目标群体、输出纲要和写作方案、根据用户反馈调整等流程。 开幕式主持稿:涉及基地代表发言的时间、主题、物料配合和人员配合等信息。 但这些素材似乎与为中国移动准备市委书记致辞稿所需的素材关联不大。一般来说,为撰写市委书记在中国移动人工智能生态大会上的致辞稿,中国移动可能需要准备以下素材: 1. 本次大会的详细介绍,包括主题、目标、议程安排等。 2. 中国移动在人工智能领域的发展成果、战略规划和未来愿景。 3. 中国移动人工智能生态的构建情况,如合作伙伴、合作项目等。 4. 本次大会在第八届数字峰会中的地位和作用。 5. 相关行业的人工智能发展现状和趋势。 6. 福州市在人工智能领域的发展情况和与中国移动合作的展望。
2025-04-18
,当前AI数字人发展的新态势,以及新技术和成果
当前 AI 数字人的发展呈现出以下新态势,并取得了一系列新技术和成果: 数字人简介: 数字人是运用数字技术创造的,虽现阶段未达科幻作品中的高度智能,但已在生活多场景中出现且应用爆发。业界对其尚无准确定义,一般可按技术栈分为真人驱动和算法驱动两类。真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,主要用于影视和直播带货,其表现质量与建模精细度及动捕设备精密程度相关,不过视觉算法进步使在无昂贵动捕设备时也能通过摄像头捕捉关键点信息实现不错效果。 B 端变现与创业方向: B 端变现细分包括高频率和大规模的内容生产细分,如文字、视频、3D 模型、AI 智能体等,底层是需求和数据收集及训练模型,算力和能源是关键。自媒体创业需具备内容创新和差异化,内容成本低且更新迭代快。游戏创业可做轻量化游戏,结合 AI 技术满足放松和社交需求,专注垂类赛道避免与大厂竞争。影视创业在 25 年将是拐点,更多内容会采用 AI 技术。广告营销创业重点是 AI 虚拟人,数字插画可走治愈类型,要明确平台用户画像和产品定位,做好次留存和引入私域。 AI 虚拟人的发展与创业机遇: AI 虚拟人从早期以首位为核心的宅文化虚拟偶像,发展到以 CG 技术和动捕语音合成技术为核心的角色,再到如今以动捕和人工智能技术为核心的服务型虚拟人。虚拟人产业链包括基础层的硬件和软件研发,平台层如商汤、百度等提供工具和系统,应用层涉及影视、传媒、游戏、金融、文旅等内容变现。未来 3 10 年,AI 虚拟人是 Web 3.0 的风口,提前布局有潜力的赛道可迎接机遇,但创业对创业者综合能力要求极高。 未来展望: 数字人未来有很多应用场景,如家庭中的数字人管家、学校中的数字人老师、商场里的数字人导购等。未来还会有很多技术突破,如将五感数据和躯壳控制参数作为输入,次世代算法可自我迭代升级和自行演化躯壳控制方式。通过 Dify 搭建数字人的开源项目可展现低门槛高度定制数字人的基本思路,数字人的核心在于 Agent 即灵魂,如何在 Dify 上编排专属数字人灵魂值得体验。期望随着数字人的多模态能力接入、智能化水平升级、模型互动控制更精确,AI 既能提供高质量信息,也能关注用户情绪。
2025-04-14
数字人
数字人是运用数字技术创造出来的人,目前业界尚无准确定义,一般可根据技术栈分为真人驱动和算法驱动两类。 真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,主要应用于影视行业及直播带货,其表现质量与手动建模精细程度及动捕设备精密程度直接相关,不过随着视觉算法进步,在无昂贵动捕设备时也能通过摄像头捕捉人体骨骼和人脸关键点信息达到不错效果。 制作数字人的工具主要有: 1. HeyGen:AI 驱动的平台,可创建逼真数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等应用。 2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入内容,平台的 AI 语音机器人自动转换成语音,合成逼真会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。使用这些工具时,请确保遵守相关使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。 以下是每个人都可以用 10 分钟轻松制作 AI 数字人视频的方法: 在显示区域,拖动背景图的一个角将图片放大到适合尺寸,覆盖视频窗口,并将数字人拖动到合适位置。增加字幕,点击文本 智能字幕 识别字幕,点击开始识别,软件会自动将文字智能分段并形成字幕。至此,数字人视频完成,点击右上角“导出”按钮导出视频以作备用。若希望数字人换成自己希望的面孔,则需要用另一个工具来进行换脸。
2025-04-12
有没有免费制作数字人的网站?
以下是一些免费制作数字人的网站及使用方法: HEYGEN: 优点:人物灵活,五官自然,视频生成很快。 缺点:中文的人声选择较少。 使用方法:点击网址注册后,进入数字人制作,选择Photo Avatar上传自己的照片。上传后效果如图所示,My Avatar处显示上传的照片。点开大图后,点击Create with AI Studio,进入数字人制作。写上视频文案并选择配音音色,也可以自行上传音频。最后点击Submit,就可以得到一段数字人视频。 DID: 优点:制作简单,人物灵活。 缺点:为了防止侵权,免费版下载后有水印。 使用方法:点击上面的网址,点击右上角的Create vedio。选择人物形象,可以点击ADD添加照片,或者使用DID给出的人物形象。配音时,可以选择提供文字选择音色,或者直接上传一段音频。最后,点击Generate vedio就可以生成一段视频。打开自己生成的视频,可以下载或者直接分享给朋友。 KreadoAI: 优点:免费(对于普通娱乐玩家很重要),功能齐全。 缺点:音色很AI。 使用方法:点击上面的网址,注册后获得120免费k币,这里选择“照片数字人口播”的功能。点击开始创作,选择自定义照片。配音时,可以选择提供文字选择音色,或者直接上传一段音频。打开绿幕按钮,点击背景,可以添加背景图。最后,点击生成视频。 此外,在剪映中也可以生成数字人:在剪映右侧窗口顶部,打开“数字人”选项,选取一位免费的、适合的数字人形象,比如“婉婉青春”。选择数字人形象时,软件会播放声音,可判断是否需要,点击右下角的“添加数字人”,将其添加到当前视频中。软件会根据提供的内容生成对应音视频,并添加到当前视频文件的轨道中。左下角会提示渲染完成,可点击预览按钮查看效果。还可以为视频增加背景图片,删除先前导入的文本内容,点击左上角的“媒体”菜单并点击“导入”按钮,选择本地图片上传,将图片添加到视频轨道上,通过拖拽轨道右侧竖线使其与视频对齐。
2025-04-11
数字人讲解产品
以下是关于数字人讲解产品的相关内容: 电商方面: 1. 添加产品/介绍背景:若有自己的视频/图片素材可用,若无,可根据搜索添加。 2. 扣像结合背景:在剪映中把数字人扣下,导入视频,点击画面选择抠像,点击智能抠像,调整大小和位置。 3. 添加字幕和音乐:智能识别字幕,可搜索或手动添加喜欢的音乐。最终形成所需视频,可用于带货或讲解产品,也能应用于直播(直播可能收费,短视频可通过购买邮箱注册使用免费时长或直接购买会员版)。 XiaoHu.AI 日报 1 月 14 日相关: 1. 无需真人模特,上传产品图片,数字人即可手持产品进行口播展示。 2. 支持语音和口型同步,动作、姿势可定制,提供 1000+多国家数字人模特。 3. 覆盖全球 28+种语言,能快速生成产品宣传视频,省去拍摄烦恼。测试视频效果接近成熟,嘴型部分仍需微调。在线体验:
2025-04-11