直达「 通往AGI之路 」飞书知识库 →
首页/全部问答
AI扣绿幕
以下是关于 AI 扣绿幕的详细步骤: 1. 对于简单的图,可找原图直接写提示词。若碰到多人多活动的复杂图,需把长图分多个模块,比如可将图分成 4 个模块。 2. 进行智能抠图,用工具把要动的内容去除掉,用 AI 生成图片部分。若有水印,可以把图片向下拓展一部分然后截掉。 3. 将要拿来动起来的部分抠出,放在绿幕背景里或者画的背景颜色,导出图片。 4. 用 AI 视频生成工具写入提示词让图片动起来,如即梦、海螺、混元等工具,不停尝试抽卡。 5. 用剪映把抽卡合格的视频放在去掉内容的背景图片上,视频的背景用色度抠图调整去掉。多个视频放在背景图片一起动,在画面/色度抠图取背景绿色并切割完毕。 另外,ComfyUI 自动生成抠图素材时,首先加载默认文生图工作流,根据需要添加 lora 节点。生成绿幕素材的思路是在绿幕上进行局部重绘,准备一张绿幕背景图,尺寸按需设置。删掉 empty latent image 节点,加载 load image 节点上传绿幕图,在蒙版编辑器绘制蒙版并保存。然后将绿幕和蒙版输入潜空间重绘,加载 vae encode for inpainting 节点,grow mask by 值适当高点。设置正反提示词,反向提示词避免出现绿色、阴影等。最后连接好所有节点,选择好模型,设置采样器参数并跑图测试。还可以用这个工作流来训练一个绿幕 lora 。
2025-02-24
有能诊断病历的AI助手吗
目前有能够在医疗领域发挥作用的 AI 助手。在 AI 诊断准确率不断提升的背景下,C 端的 AI 陪诊、AI 助理等可以成为获取医疗数据的重要途径。 例如,在语音电子病历/护理记录方面,技术相对成熟。国外已有较多相关产品尝试,如微软 Nuance 的 DAX Express(基于 GPT4)、Augmedix(接入 Google MedPaLM2)、法国创业公司 Nabla Copilot(基于 GPT)等。这类产品主要是语音识别,不涉及诊断。 在国内,护理记录的需求比门诊病历的需求更强,护士场景需求较大。但在国内推广存在隐私等问题,较少敏感信息的护士操作助理会有更多的落地可能性。 此外,GPT4V 在医学图像理解和放射学报告生成方面也展现出一定的潜力,如能正确识别部分研究并提供准确诊断,但生成的报告仍需要医学专业人士评估以确保正确性和准确性。
2025-02-24
视频分析
以下是关于视频分析的相关内容: 使用 Gemini 进行视频分析: 可以放入自己的案例,文档可编辑。 思路:如拿库布里克的电影来分析,学习大师手法;b 站大学复习有帮助;可用于影视二创长剪短、警察查监控等场景,替代 Opus 等长剪短工具。 测试者阿强的体验:好用,准确度高,对功夫熊猫版如来神掌的分析效果好,能准确认出“如来神掌”。 测试者 PeacePower 的结论:Gemini API 不支持原生的视频分析,UI 提现的视频分析是通过按 frame rate 提取关键帧分析,可能出现丢帧情况。可设置条件提供采样率,默认条件识别次数不准确。 宝玉日报 2 月 10 日提到: 选对模型是关键,GPT4o 目前无法直接解析视频,Gemini 2.0 Flash Thinking 是解析视频的最佳选择。 AIStudio 免费可用,需海外 IP,上传视频即可解析。并提供了视频解析示例及相关链接。
2025-02-24
AI是什么,AI的历史
人工智能(Artificial Intelligence)是一门研究如何使计算机表现出智能行为,例如做一些人类所擅长的事情的科学。 其历史始于二十世纪中叶,最初符号推理流行,带来了专家系统等重要进展,但因从专家提取知识并表现和保持知识库准确性复杂且成本高,20 世纪 70 年代出现“人工智能寒冬”。 随着时间推移,计算资源更便宜,数据更多,神经网络方法在计算机视觉、语音理解等领域展现出卓越性能,过去十年中,“人工智能”常被用作“神经网络”的同义词。 例如在创建国际象棋计算机对弈程序时,方法不断变化。最初,查尔斯·巴贝奇发明了计算机,用于按照明确程序运算,现代计算机虽先进但仍遵循相同受控计算理念。但像“根据照片判断一个人的年龄”这类任务无法明确编程,因为我们不知大脑完成此任务的具体步骤,而这类任务正是人工智能感兴趣的。
2025-02-24
自动网上搜索信息定期推送
以下是关于自动网上搜索信息定期推送的相关内容: Bot 智能体: 创意构思:创建 Bot 的初衷是让每个人拥有专属的市场和资讯助手,能以多模态形式(文字、图像、文档、语音等)自动推送最新资讯到不同平台,通过 Coze 等实现跨平台联动、针对不同客户需求检索、对检索内容分析处理并以友好格式输出。 效果呈现:Coze Bot 可通过不同提问触发检索功能,企业微信群能自动同步获得资讯检索结果,实现多平台联动,还能获取飞书云文档多维表格中的用户需求,Coze API 可接入微信进行对话交互检索。 自动总结公众号内容并定时推送到微信: 搭建工作流:包括将推送内容插入数据库(避免重复推送)、结束节点、试运行(输入数据测试,查看结果并发布)。 工作流拆解: 抓取公众号内容:可通过瓦斯阅读、WeWe RSS 等方式获取。 公众号内容总结:依靠大模型能力,如字节的豆包大模型,可使用批处理功能批量总结。 定时推送到微信:定时通过 Coze 平台触发器实现,推送需找第三方 API 方案。
2025-02-24
抓取视频文字的浏览器插件
以下是为您找到的与抓取视频文字的浏览器插件相关的信息: 视频内容分析模型,上传视频后可以生成视频内容的文本描述。来源: 一个浏览器插件,可以用 AI 读取您的邮件内容并帮您生成回复。来源: 此外,还有关于其他插件的相关内容: 适用于 Google 表格的无代码机器学习插件。来源: 对 Chat GPT 二次封装的产品,可以访问互联网数据以及支持直接生成图片。来源: Luma Imagine 3D 一种用文本创建 3D 的新方法。来源: RF Diffusion 模型,帮助设计蛋白质结构的扩散模型。来源: PubMed GPT:生物医学文本的特定领域大型语言模型。来源: 还有关于制作插件的一些信息: 如果报错、解析结果不对,可以点击 Raw Response,会看到报错或者返回值,再根据返回值调整配置输出参数。 复制对应的链接到浏览器地址栏,打开查看。 有些文字显示不出来,是因为字体包中没有这个字,所以就会导致显示不出来。这个暂时没什么办法。除非找到更加全面的字体包。 点击完成,就成功的创建了一个插件。 另外,有一款 AI 浏览器插件,目标是实现输入任意文章链接后,AI 自动生成适合微信分享的文章推荐卡片。为了达到这一效果,大模型对话产品需要完成以下关键步骤: 1. 网页爬取:自行访问链接,解析网页内容。 2. 内容总结:根据提示词要求,提炼标题、摘要、要点等信息。 3. 二维码生成:利用 qrcode.js 库,将 URL 转换为二维码图片。 4. 卡片样式生成:基于特定模板设计要求(暂不考虑自适应样式主题),将卡片内容、二维码组合为精美的分享卡片。 值得一提的是,通过实践探索,发现了新的词生卡 Prompt 组织方法:把设计要求拆分为“设计规范”和“内容结构”,再细分为“布局与尺寸”、“字体规范”、“颜色规范”的独立模块,并结合“内容结构”进行要求提示。这种提示词组织方式有 3 个显著优势: 1. 模型通用性:采用纯 Markdown 格式编写,不依赖特定模型的特性,可以适配不同的大语言模型。 2. 提示简易性:提示词结构清晰易读,便于自然语言编写,降低使用门槛。 3. 生成稳定性:通过清晰的模块划分和自然语言描述,避免了指令间的相互干扰,提高了 AI 生成样式代码的准确性和一致性。
2025-02-24
机器狗
机器狗是具身智能的一种表现形式。具身智能是将机器学习算法适配至物理实体,与物理世界交互的人工智能范式。人形机器人是具身智能的代表产品,不同环境下会有不同形态的硬件本体以适应环境,比如崎岖不平的地面更适用四足机器人(机器狗)。 在 2024 年的 AI 大事纪中,云深处发布了机器狗,宇树科技的机器狗爆火,似奔着打架去。此外,Xiaohu.AI 日报在 12 月 23 日提到宇树科技推出轮式机器狗 Unitree B2W,具备极强灵活性,能适应多种复杂地形,支持驮人奔跑,拓展了应用场景。
2025-02-24
知识库目录
以下是通往 AGI 之路的知识库目录相关内容: 1. 直播一期:知识库及 GPT 基础介绍 包含知识库及社群介绍,提供了直播回放链接,还介绍了最新知识库精选同步,如通往 AI 绘画之路(小红书),专注于 AI 绘画,分享优质设计 Prompt,并进行了知识库目录导览。 2. 5.关于我们&致谢 介绍这是一个开源 AI 社区,创建知识库的初衷是坚信人工智能将重塑思考和学习方式,带来强大力量。特别感谢支持和推荐知识库的伙伴们,WaytoAGI 是由热爱 AI 的专家和爱好者共同建设的开源 AI 知识库,整合各种 AI 资源,让不同水平的人都能受益。 3. ?通往 AGI 之路分享会 深入浅出理解 AI,从有趣的应用到核心原理。包括自我介绍,愿景和目标是让每个人学习 AI 少走弯路,让更多人因 AI 强大。目录涵盖有趣的 AI 案例、AI 的原理、Diffusion 原理和案例、什么是 Agent 。
2025-02-24
数字人
数字人是运用数字技术创造出来的人,目前业界没有准确定义,一般可根据技术栈分为真人驱动和算法驱动两类。 真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,主要应用于影视行业及直播带货,其表现质量与手动建模精细程度及动捕设备精密程度直接相关,不过视觉算法的进步使在无昂贵动捕设备时也能通过摄像头捕捉人体骨骼和人脸关键点信息达到不错效果。 制作数字人的工具主要有: 1. HeyGen:AI 驱动的平台,可创建逼真数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等应用。 2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入内容,平台的 AI 语音机器人自动转换成语音,合成逼真会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。请注意,这些工具的具体功能和可用性可能会变化。使用时请确保遵守相关使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。 以下是每个人都可以用 10 分钟轻松制作 AI 数字人视频的方法: 在显示区域,拖动背景图的一个角将图片放大到适合尺寸,比如覆盖视频窗口,并将数字人拖动到合适位置。 增加字幕,点击文本智能字幕识别字幕,点击开始识别,软件会自动将文字智能分段并形成字幕。 至此,数字人视频完成,点击右上角“导出”按钮,导出视频以作备用。若希望数字人换成自己希望的面孔,则需要用另一个工具来进行换脸。
2025-02-24
AI建模
以下是关于 AI 建模的相关信息: 术语方面: 生成对抗网络(Generative Adversarial Network) 生成方法(Generative Approach) 生成式模型(Generative Model) 生成式建模(Generative Modeling) 生成矩匹配网络(Generative Moment Matching Network) 生成式预训练(Generative PreTraining) 生成随机网络(Generative Stochastic Network) 生成权重(Generative Weight) 生成器(Generator) 生成器网络(Generator Network) 遗传算法(Genetic Algorithm) 几何间隔(Geometric Margin) 工具方面: provisual.app:这是一个 3D 模型在线可视化平台,具有易于使用、无需特殊技能或软件、可节省时间和成本等优点。平台功能包括在线协作、实时渲染、无限视角、材质和纹理编辑、高质量输出等。适用于产品设计、营销、教育等领域,目标客户为营销机构、创意机构、包装公司、在线商店、设计院的设计师、美术师等。 tripo3d.ai:这是一个人工智能驱动的 3D 建模平台,可以使用文本或图像在几秒钟内生成高质量且可直接使用的 3D 模型。 meshy:相关网址为 https://www.meshy.ai/ 案例方面: 作者 GongWang 分享的“潦草建模?Ai 生成场景模型”,使用工具包括 Midjourney V6、Comfy Ui、Magnific Ai、Upscayl、Leia Pix(深度图)、Shadermap(法线图)。
2025-02-24