「AGIへの道」飛書ナレッジベースへ直行 →
ホーム/すべての質問
照片人物与虚拟人合成
以下是关于照片人物与虚拟人合成的相关内容: 使用 Midjourney(MJ)生成人物图片: 确定人物形象,如“a little girl wearing a yellow floral skirt + 人物动作 + 风格词”,在 MJ 中生成直到得到满意的人物图像。可使用垫图 URL 及相关提示词,如“In the forest,a little girl wearing a yellow floral skirt is playing happily,super high details,HDsmooth,by Jon Burgerman,s 400 ar 3:4 niji 5 style expressive iw 2”,其中“iw 取值范围,不填写默认 iw = 1,iw 值越大越接近垫的图像,反之更接近提示词。为了确保人物一致性,取 iw 2”。 合成人物和场景: 使用 PS 或者 Canva 将人物和场景合成到一张图,若色调不和谐,可将合成后的图作为垫图(iw 2),在 MJ 中重新生图,提示词如“垫图 url + Little girl wearing a yellow floral skirt,and her friend brown bear,taking shelter in the cave,rainstorm,super high details,HDsmooth,by Jon Burgerman,s 400 ar 3:4 niji 5 style expressive iw 2”。 在 StableDiffusion(SD)中绘制一致性多角度头像: 准备工作:准备一张人物的多角度图片,尺寸设置为 1328×800px,放大两倍后保证每张小图都是 512×512px。加上网格图,通过 lineart 来分割不同的块面。设置 controlnet,第一张图选择 openpose_face 得到人物的 15 个面部角度,第二张图选择 lineart_standard得到清晰的表格分区,为防止小图模式下人脸崩坏,可增加 ADetailer 的脸部修复插件。 制作数字人的工具: HeyGen:AI 驱动的平台,可创建逼真的数字人脸和角色,适用于游戏、电影和虚拟现实等应用。 Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入要说的内容,平台提供的 AI 语音机器人将自动转换成语音,然后合成逼真的会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。请注意,这些工具的具体功能和可用性可能会变化,使用时请遵守相关条款和政策,并注意版权和伦理责任。
2024-10-28
AI数字人
AI 数字人是运用数字技术创造出来的人,虽现阶段不能如科幻作品中的人型机器人般高度智能,但已在各类生活场景中出现,且随着 AI 技术发展正迎来应用爆发。目前业界尚无准确定义,一般可根据技术栈分为两类: 1. 真人驱动的数字人:重在通过动捕设备或视觉算法还原真人动作表情,主要应用于影视行业及直播带货。表现质量与手动建模精细程度及动捕设备精密程度直接相关,不过随着视觉算法进步,在无昂贵动捕设备时,也能通过摄像头捕捉人体骨骼和人脸关键点信息达到不错效果。 2. 算法驱动的数字人:强调自驱动,人为干预更少,技术实现更复杂。大致流程包含三个核心算法: ASR(语音识别):能将用户音频数据转化为文字,便于数字人理解和生成回应。开源代码如 openai 的 whisper(https://github.com/openai/whisper)、wenet(https://github.com/wenete2e/wenet)、speech_recognition(https://github.com/Uberi/speech_recognition)。 AI Agent(人工智能体):充当数字人大脑,可接入大语言模型,如 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。Agent 部分可用 LangChain 模块自定义(https://www.langchain.com/)。 TTS(文字转语音):将数字人依靠 LLM 生成的文字输出转换为语音。开源代码如微软的 edgetts(https://github.com/rany2/edgetts),只能使用预设人物声音且接口免费;VITS(https://github.com/jaywalnut310/vits)及其分支版本,可自己训练想要的人声;sovitssvc(https://github.com/svcdevelopteam/sovitssvc)专注于唱歌。 除算法外,人物建模模型可通过手动建模(音频驱动)或 AIGC 方式生成人物动态效果(如 wav2lip 模型)实现一个最简单的数字人。但这种简单构建方式存在诸多问题,如如何生成指定人物声音、TTS 生成的音频如何精确驱动数字人口型及动作、数字人如何使用知识库做出某领域专业性回答等。
2024-10-28
Adobe Spark可以ai生成视频吗
Adobe Spark 本身不具备直接使用 AI 生成视频的功能。 将小说或文字生成视频通常涉及多个步骤,以下是一些可以实现此功能的工具及相关信息: 1. Stable Diffusion(SD):一种 AI 图像生成模型,可基于文本描述生成图像。网址:https://github.com/StabilityAI 2. Midjourney(MJ):适用于创建小说中的场景和角色图像。网址:https://www.midjourney.com 3. Adobe Firefly:Adobe 的 AI 创意工具,可以生成图像和设计模板。网址:https://www.adobe.com/products/firefly.html 4. Pika AI:文本生成视频的 AI 工具,适合动画制作。网址:https://pika.art/waitlist 5. Clipfly:一站式 AI 视频生成和剪辑平台。网址:https://www.aihub.cn/tools/video/clipfly/ 6. VEED.IO:在线视频编辑工具,具有 AI 视频生成器功能。网址:https://www.veed.io/zhCN/tools/aivideo 7. 极虎漫剪:结合 Stable Diffusion 技术的小说推文视频创作提效工具。网址:https://tiger.easyartx.com/landing 8. 故事 AI 绘图:小说转视频的 AI 工具。网址:https://www.aihub.cn/tools/video/gushiai/ 另外,在 Adobe Firefly 的 Advanced 部分,您可以使用 Seed 选项添加种子编号来控制生成内容的随机性。如果使用相同的种子、提示和控制设置,可以重新生成类似的视频剪辑。 以下是一些其他的文字生成视频的 AI 产品: 1. Pika:擅长动画制作,并支持视频编辑。 2. SVD:如果熟悉 Stable Diffusion,可以安装这款最新的插件,在图片基础上直接生成视频。 3. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,但收费。 4. Kaiber:视频转视频 AI,能够将原视频转换成各种风格的视频。 5. Sora:由 OpenAI 开发,可以生成长达 1 分钟以上的视频。 更多的文生视频的网站可以查看:https://www.waytoagi.com/category/38 。请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-10-28
Animaker可以ai生成视频吗
Animaker ai 可以生成视频。根据提供的信息,在其他视频生成的相关排行中,Animaker ai 位列其中。但关于其生成视频的具体特点和优势等详细信息未在给定内容中明确提及。
2024-10-28
Agent是什么 AI agent是什么
AI Agent 是基于大型语言模型(LLM)和其他技术实现的智能实体,其核心功能在于自主理解、规划决策、执行复杂任务。 心灵社会理论认为,智能是由许多简单的 Agent(分等级、分功能的计算单元)共同工作和相互作用的结果。这些 Agent 在不同层次上执行不同的功能,通过协作实现复杂的智能行为。心灵社会将智能划分为多个层次,从低层次的感知和反应到高层次的规划和决策,每个层次由多个 Agent 负责。每个 Agent 类似于功能模块,专门处理特定类型的信息或执行特定任务,如视觉处理、语言理解、运动控制等。智能不是集中在单一的核心处理单元,而是通过多个相互关联的 Agent 共同实现,这种分布式智能能够提高系统的灵活性和鲁棒性,应对复杂和多变的环境。 同时,在《心灵社会》中,明斯基还详细描述了不同类型的 Agent 及其功能,包括专家 Agent(拥有特定领域知识和技能,负责处理复杂的任务和解决特定问题)、管理 Agent(协调和控制其他 Agent 的活动,确保整体系统协调一致地运行)、学习 Agent(通过经验和交互,不断调整和优化自身行为,提高系统在不断变化环境中的适应能力)。 从达特茅斯会议开始讨论人工智能(Artificial Intelligence),到马文·明斯基引入“Agent”概念,“AI”和“Agent”就彻底聚齐了,往后,我们都将其称之为 AI Agent。 AI Agent 还包括下面几个概念: 1. Chain:通常一个 AI Agent 可能由多个 Chain 组成。一个 Chain 视作是一个步骤,可以接受一些输入变量,产生一些输出变量。大部分的 Chain 是大语言模型完成的 LLM Chain。 2. Router:可以使用一些判定(甚至可以用 LLM 来判定),然后让 Agent 走向不同的 Chain。例如:如果这是一个图片,则 a;否则 b。 3. Tool:Agent 上可以进行的一次工具调用。例如,对互联网的一次搜索,对数据库的一次检索。 此外,还需要三个 Agent: 1. Responser Agent:主 agent,用于回复用户(伪多模态)。 2. Background Agent:背景 agent,用于推进角色当前状态(例如进入下一个剧本,抽检生成增长的记忆体)。 3. Daily Agent:每日 agent,用于生成剧本,配套的图片,以及每日朋友圈。 Responser Agent、Daily Agent、Background Agent 每隔一段时间运行一次(默认 3 分钟),运行时会分析期间的历史对话,变更人物关系(亲密度,了解度等),变更反感度,如果超标则拉黑用户,抽简对话内容,提取人物和用户的信息成为“增长的记忆体”,按照时间推进人物剧本,有概率主动聊天(与亲密度正相关,跳过夜间时间)。
2024-10-28
利用AI变现的最佳途径
以下是一些利用 AI 变现的途径: 1. 电商方面:通过在抖音、快手、视频号、小红书等平台上批量发布四维彩超生成 AI 宝宝照片的视频或图文,将客户引流到私域接单变现。后续还可针对宝妈开展如头像定制、绘画收徒、宝宝起名字、售胎毛纪念品、母乳纪念品等多种变现方式,并做好私域的精细化运营。 2. 知识自测:对于 AI 从业者,变现方式包括做产品、卖课程等。 3. 深圳 AI 变现沙龙中的项目: 借助抖音平台对实体商家的流量扶持,开发 AI 抖音发广告软件,让实体商家购买。 开发 AI 私域做客户培育/用户旅程的软件。 制作 AI 绘本,为 2 4 岁儿童提供睡前故事。 针对大学生社群,对接商家进行广告推广。 开展海外跨境电商和外贸。 开发法律咨询的 Bot,建立数据库回复。 进行体检报告解读。
2024-10-28
动漫生成
以下是关于动漫生成的相关内容: Niji V5 动漫提示干货操作实例: 在通过 Midjourney 创作动漫时,可在提示中包含动漫艺术家、漫画艺术家或漫画家的名字,如宫崎骏、织田荣一郎、竹内直子、井上武彦、平井恒、松本纪夫、藤本浩、勇吉成、樱桃子等。 示例提示:“一个穿着传统日本服装的女孩,旁边有白狼,站在一个神奇的托里神社前,artgerm,吉卜力工作室— ar 3:2 — niji 5”,可创建出相应的动漫画面。 对比 Niji V4 和 Niji V5,Niji Version 5 在细节和艺术风格上表现更优。 动态叙事动画生成器: 系统架构: 处理与分析层:负责处理用户输入并分析内容,包括 Prompt 解析器、实体识别、场景理解、情感分析等。 生成与渲染层:将分析结果转换为视觉内容,包括分镜生成器、动画引擎、后处理单元。 优化与反馈层:确保生成的视频满足用户需求并根据反馈优化,包括质量评估、性能监控、反馈循环。 技术支撑层:为系统提供技术支持和基础设施,包括数据管理、计算资源、API 和接口。 方案效果: 系统处理流程: Prompt 解析器解析关键信息。 分镜生成器根据信息生成分镜脚本,如不同季节的场景和人物动作。 视频渲染引擎将分镜脚本转换为视频帧并渲染,添加色调、光影、背景音乐和声音效果。 用户交互界面供用户输入 Prompt 并选择参数、预览和下载视频。
2024-10-28
找到一个ai视频制作软件,能够生成后进行视频调整、剪辑
以下为您推荐一些 AI 视频制作软件及相关流程: 制作流程: 1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 软件推荐: 1. 剪映 App:功能强大,个人免费版可满足简单视频处理需求。 2. 11labs:用于英文对白制作,效果较好,但无法使用语速、情绪调节等控件,需通过标点符号改变语音效果。 3. 魔音工坊:国内可用,有情绪调节控件。 请注意,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。
2024-10-28
投资相关的AI应用场景有哪些
以下是一些投资相关的 AI 应用场景: 1. 金融服务中的风控和反欺诈:AI 可用于识别和阻止欺诈行为,降低金融机构风险。 2. 信用评估:帮助金融机构评估借款人的信用风险,辅助做出更好的贷款决策。 3. 投资分析:通过分析市场数据,协助投资者做出更明智的投资决策。 4. 智能理财助手:如蚂蚁财富智能理财助手,根据用户风险偏好和资产状况提供投资方案。 此外,还有一些具体的应用案例,比如 FundGuard 是 AI 投资会计系统,为金融领域提供服务。
2024-10-28
ChatGPT的替代,而且是英文为主的
以下是一些以英文为主的 ChatGPT 替代方案: Google 的 Bard 是一种选择。 在写代码领域,GitHub 的 Copilot 是领先的,但并非免费,替代品有 Tabnine、Codeium、Amazon CodeWhisperer、SourceGraph Cody、Tabby、fauxpilot/fauxpilot 等。 Meta 在 2023 年 2 月开源了 LLaMA 1,并于 7 月发布了进阶的 Llama 2 且允许商用。 关于 ChatGPT 有效的原因:通过大量的英文文本,可以估计单个字母、字母对甚至更长字母序列的概率。当处理单词时,也能通过查看大量英文文本估计每个单词的出现频率,并通过考虑单词的 ngram 概率来生成更合理的句子,但由于可能性数量巨大,无法从已有文本中估计所有概率。 谷歌最新的 Gemini 多模态模型系列包括 Ultra、Pro 和 Nano 三种型号,能处理多种模态,但存在多模态能力有限、幻觉问题和多语言表现不佳等情况。其体验不如 ChatGPT 对中文的理解能力弱,但在生成质量和与搜索生态结合方面有进步。Gemini 对 AI 应用的意义可能超过 OpenAI,其发展可能促使 GPT4.5 提前出战,Anthropic 的 Claude 推出多模态版本,也会影响相关投资。
2024-10-28