「AGIへの道」飛書ナレッジベースへ直行 →
ホーム/すべての質問
comfui 出现SUPIR_Upscale怎么办
当 ComfyUi 出现 SUPIR_Upscale 时,以下是相关信息: 通过使用神经网络对潜在空间进行放大,无需使用 VAE 进行解码和编码。此方法比传统的 VAE 解码和编码快很多,并且质量损失很小。插件项目地址:https://github.com/Ttl/ComfyUi_NNLatentUpscale?tab=readmeovfile 。潜在表示是神经网络处理图像时生成的压缩版本,包含图像主要特征信息,处理潜在表示更快且资源消耗更少。 具体流程包括:生成潜在表示(生成低分辨率图像)、放大潜在表示、生成高分辨率图像(将放大的潜在图像反馈到稳定扩散 UNet 中进行低噪声扩散处理从而修复成高分辨率图像)。此节点用于一种工作流程,初始图像以较低分辨率生成,潜在图像被放大,然后将放大的潜在图像反馈到稳定扩散 unet 中进行低噪声扩散处理(高分辨率修复)。 UNet 是一种特别的神经网络结构,常用于图像处理,尤其是图像分割。其工作方式包括编码部分(逐步缩小图像提取重要特征)、解码部分(逐步放大图像把提取的特征重新组合成高分辨率的图像)、跳跃连接(在缩小和放大过程中保留细节信息使最终生成的图像更清晰),这种结构能在放大图像时保持细节和准确性。 ComfyUI 老照片修复 Flux Controlnet Upscale 中,关于 flux unet 的 weight_dtype: Flux 模型主要用于图像处理,特别是上采样。这类任务通常需要较高精度来保留图像细节。 fp8 格式包括 fp8_e4m3fn(4 位指数,3 位尾数,通常提供更好的精度)和 fp8_e5m2(5 位指数,2 位尾数,提供更大的数值范围但精度较低)。 图像处理通常更依赖于精确的小数值表示,现代 GPU 通常对 fp8_e4m3fn 格式有更好的优化支持。在没有特殊需求的情况下,图像处理模型通常倾向于选择提供更高精度的格式,对于 Flux 模型,特别是在进行图像上采样任务时,fp8_e4m3fn 可能是更好的选择,因为更高的精度有利于保留图像细节和纹理,图像处理通常不需要特别大的数值范围,fp8_e4m3fn 的精度优势更为重要,这种格式在现代 GPU 上可能有更好的性能表现。
2025-01-21
comfui SUPIR_Upscale怎么办
ComfyUi 的 SUPIR_Upscale 是一种通过神经网络对潜在空间进行放大的技术。以下是相关详细信息: 原理:通过使用神经网络对潜在空间进行放大,无需使用 VAE 进行解码和编码。此方法比传统的 VAE 解码和编码快很多,并且质量损失很小。 流程: 生成潜在表示:图像被模型压缩成潜在表示,生成一个低分辨率的图像。 放大潜在表示:利用神经网络对潜在表示进行放大。 生成高分辨率图像:将放大的潜在图像反馈到稳定扩散 UNet 中,进行低噪声扩散处理,从而修复成高分辨率图像。 相关节点:此节点旨在用于一种工作流程中,其中初始图像以较低分辨率生成,潜在图像被放大,然后将放大的潜在图像反馈到稳定扩散 unet 中进行低噪声扩散处理(高分辨率修复)。 UNet 结构:UNet 是一种特别的神经网络结构,通常用于图像处理,尤其是图像分割。其工作方式包括编码部分逐步缩小图像提取重要特征,解码部分逐步放大图像并重新组合特征,以及通过跳跃连接在缩小和放大过程中保留细节信息,使最终生成的图像更清晰。 ComfyUI 老照片修复 Flux Controlnet Upscale 方面: 以前有高清放大的工作流,被用于淘宝老照片修复。现在新模型结合工作流,只需十几个基础节点就能实现更好效果。 参数调节:一般先确认放大倍数,再根据图片调整 controlNet 强度。 ControlnetUpscaler 放大模型:Flux.1dev ControlNet 是 Jasper 研究团队为低分辨率图像开发的模型,可直接与 diffusers 库一起使用,通过特定代码加载管道,加载控制图像并进行图像处理。其训练方式采用合成复杂数据退化方案,结合图像噪声、模糊和 JPEG 压缩等多种方式对真实图像进行人工退化。 Flux Ultimator 细节增强:能增加小细节,让图像尽可能逼真,放大色调的丰富性和深度,在 0.1 的强度设置下也能有显著增强效果,能顺利集成到工作流程中,与其他 LORA 结合使用效果好,结合时需将强度降低小于 0.5。 T5 Clip:若图片质量细节不够,选择 fp16 的版本。 图像的传递:controlNet 这里传递的应该是上传的原始图片,因为这个是 controlNet 而不是潜空间图像。 关于 flux unet 的 weight_dtype: Flux 模型主要用于图像处理,特别是上采样(upscaling),这类任务通常需要较高的精度来保留图像细节。 fp8 格式包括 fp8_e4m3fn(4 位指数,3 位尾数,通常提供更好的精度)和 fp8_e5m2(5 位指数,2 位尾数,提供更大的数值范围但精度较低)。 图像处理通常更依赖于精确的小数值表示,而不是极大或极小数值的表示能力,现代 GPU 通常对 fp8_e4m3fn 格式有更好的优化支持。 在没有特殊需求的情况下,对于 Flux 模型进行图像上采样任务时,fp8_e4m3fn 可能是更好的选择,因为其更高的精度有利于保留图像细节和纹理,且图像处理通常不需要特别大的数值范围,这种格式在现代 GPU 上可能有更好的性能表现。 插件项目地址:https://github.com/Ttl/ComfyUi_NNLatentUpscale?tab=readmeovfile 潜在表示(latent representation)是神经网络处理图像时生成的压缩版本,它包含了图像的主要特征信息。相比于直接处理高分辨率图像,处理潜在表示更快且资源消耗更少。
2025-01-21
怎样学习AI制作短视频
以下是学习 AI 制作短视频的相关内容: 1. 制作步骤: 剧本创作:可以从原创(如自身或周围人的经历、做过的梦、想象的故事等)和改编(如经典 IP、名著、新闻、二创等)两个路径获取灵感。 分镜脚本创作 角色设计:需保持角色的一致性,并增加个性化特性。 分镜图片制作:生成一张合适的图片就直接开始进行对应动画镜头的生成。 动画制作:主要使用了 pixverse、pika、runway 三种视频生成工具。 配音和配乐 2. 注意事项: 编剧方面,虽然有剧作理论和模板,但不能死板套用,应多实践、总结经验,从简单的短片创作入手,可从自身或朋友经历改编,或对短篇故事进行改编,多与他人讨论故事。 不论使用镜头拍摄还是 AI 工具生成,都脱离不了影视制作的基础逻辑。 短片以短故事片为主,后续会讨论广告片等类型。 相关原文链接:
2025-01-21
ai与教师
以下是关于 AI 与教师的相关内容: 在医疗保健领域,专家 AI 可能通过元学习更快地获取知识,并最终成为下一代专家(包括人类和 AI)的教师。 Character.ai 让每个人都可定制自己的个性化 AI,授课教师、游戏玩家、情感伴侣等服务都可以被 AI 重构。如今借助大型语言模型,人工智能生成的角色可以作为数字教师,如让牛顿亲自授课《牛顿运动定律》,让白居易讲述《长恨歌》背后的故事。数字教师能实现一对一辅导,不受情绪左右,还能根据学生情况提供定制化学习计划和资源,提高教育效率和质量,缓解教育资源不平等问题。此外,人工智能生成的虚拟角色也可以是数字陪伴,促进儿童成长和提高学习成绩。 北京市新英才学校的师生已经在行动,跨学科项目老师带着学生用 AIGC 做学校地图桌游,英语老师借助 AIGC 备课和授课,生物和信息科技老师合作带学生训练 AI 模型。数字与科学中心 EdTech 跨学科小组组长魏一然参与其中,学校领导层重视人工智能教育发展,给予老师很大自由空间,目前虽在探索初级阶段,但已有一定经验和成果。不过学生对 AIGC 的认知和理解差异较大。
2025-01-21
能生成页面 UI 设计图的 AI 工具
以下是一些能生成页面 UI 设计图的 AI 工具: 1. Midjourney:如果想指定生成某个页面(如首页、登录页等),只需添加页面指令描述,如“landing page”“Profile Page”等。通过一系列操作,其产出的设计图视觉效果不错,适合在 APP 设计的初始阶段,如头脑风暴和风格探索中为设计师提供灵感和创意。但目前直接用于落地开发仍有距离。在 Midjourney 中生成 UI 设计图没有固定的 Prompt,可先使用指令模板“ui design forapplication,mobile app,iPhone,iOS,Apple Design Award,screenshot,single screen,high resolution,dribbble”,将“类型”替换为产品的关键词描述(英文)。 2. 即时设计:https://js.design/ 这是一款可在线使用的“专业 UI 设计工具”,为设计师提供更加本土化的功能和服务,更注重云端文件管理、团队协作,并将设计工具与更多平台整合,一站搞定全流程工作。 3. V0.dev:https://v0.dev/ Vercel Labs 推出的 AI 生成式用户界面系统,能通过文本或图像生成代码化的用户界面,基于 Shadcn UI 和 Tailwind CSS 生成复制粘贴友好的 React 代码。 4. Wix:https://wix.com/ 这是一款用户友好的 AI 工具,无需编码知识即可轻松创建和自定义网站,提供广泛的模板和设计选择,以及移动优化和集成电子商务等功能,能帮助不同领域用户创建各种网站。 5. Dora:https://www.dora.run/ 使用 Dora AI,可以通过一个 prompt,借助 AI 3D 动画生成强大网站,支持文字转网站、生成式 3D 互动、高级 AI 动画。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-01-21
国内文生图模型
以下是关于国内文生图模型的相关信息: Recraft 模型:用 8 个月自研模型,包含处理数据的模型、标注工作、训练 OCR 模型、新构建的数据集等。Recraft 生成带有长文本图像的流程图解,但存在生成默认是外国面孔而非亚洲面孔且生成的亚洲人不太自然的情况,可能与数据集有关。只有少数公司真正从头训练模型,创建自己的模型困难且成本高,需要超强团队和资金。 模型能力方面: 文本编码器的能力是文生图模型语义理解能力的关键。一开始大部分模型使用 CLIP 作为文本编码器,但存在一些问题。新的模型纷纷优化文本编码器能力,如引入更大更强的 T5XXL 或结合多个特征,但开源模型在中文生图方面能力一般。 腾讯开源的 HunyuanDiT 是较可用的中文生图模型,但仍存在优化空间。 Kolors 是最近开源的给力文生图模型,改进全面,技术实力强。
2025-01-21
AI剪辑
以下是关于 AI 剪辑的相关内容: 在 AI 短片制作中,声音部分的制作可以使用 AI 声音软件,如 11labs 进行对白制作,将中文台词翻译成英文后需进行校对与润色。11labs 英文效果较好,但存在声音无情绪情感的问题,只能通过标点符号改变语音效果,且抽声音卡难度大。国内可使用魔音工坊,其有情绪调节控件。 在剪辑方面,对于 13 分钟的短片,剪映较为方便;更长篇幅或追求更好效果可能需使用 PR/FCP/达芬奇等传统剪辑软件。 在 AI 春晚的节目创作中,团队成员包括制片人、图像创意、视频制作、编剧、配音和配乐、剪辑师等,分工明确,通过社群召集,借助 AI 完成大部分工作,高效协作。 在晨然的 AI 作品《Devices》中,工作流核心包括 Blender 动画制作、ComfyUI 转绘和蒙太奇剪辑。Blender 建模有运动可控、模型多样、原生深度图和线框图等优势。剪辑思路可采用 textbased 蒙太奇,也可参照 OpenInterpreter 的匹配剪辑思路。
2025-01-21
ai产业链上市公司有哪些
以下是 2024 年美国融资金额超过 1 亿美元的部分 AI 产业链上市公司(截止 2024.10.15): |项目名称|融资时间|融资金额(亿美元)|轮次|估值(亿美元)|主营|产业链标签|话题标签|投资方|其他信息| ||||||||||| |Augment|20240424|2.27|B|10|AI 编码辅助|应用|编程|Lightspeed Venture Partners, Index Ventures, Sutter Hill Ventures| |Cognition|20240424|1.75||20|端到端软件 Agents|应用|编程|Founders Fund, Ramp 联合创始人 Eric Glyman, Stripe 联合创始人 Patrick 和 John Collison, DoorDash 联合创始人 Tony Xu| |Xaira Therapeutics|20240423|10|A||AI 药物研发|应用|医学|Foresite Capital, ARCH Venture Partners| |Cyera|20240409|3|C|14|AI 数据安全平台|应用|数据|Coatue, Sequoia, Redpoint, Accel| |Celestial AI|20240327|1.75|C||用于 AI 存储和计算的光互连技术平台|基础设施|芯片、硬件和云平台|Thomas Tull 美国创新技术基金, M Ventures, 淡马锡, Tyche Partners| |FundGuard|20240325|1|C|4|AI 投资会计系统|应用|金融|Key1Capital, Hamilton Lane, Blumberg Capital, Team8| |Codeium|20240829|1.5|C|12|AI 编码平台|应用|编程|General Catalyst, Kleiner Perkins, Greenoaks| |Groq|20240805|6.4|D|30|AI 芯片|基础设施|芯片|贝莱德, Type One Ventures, Verdure Capital Management, Neuberger Berman| |DevRev|202408|1|A|11|AI 支持代理|应用|企业服务|Khosla Ventures, Mayfield, Param Hansa Values| |Abnormal Security|202408|2.5||50|电子邮件安全|应用|数据|Wellington Management, Menlo Ventures, Greylock, Insight Partners| |Harvey|20240723|1|C|15|法律科技|应用|法律|Google Ventures, OpenAI, Kleiner Perkins, Sequoia| |Skild AI|20240709|3|A|15|机器人技术|应用|机器人|Lightspeed Venture Partners, Coatue, Bezos Expeditions, Sequoia, Menlo Ventures, General Catalyst| |Hebbia|20240708|1.3||7|生成式 AI 搜索|应用|企业服务|Andreessen Horowitz, Peter Thiel, Index Ventures, Google Ventures| |Zephyr AI|20240313|1.11|A||AI 药物发现和精准医疗|应用|医学|Revolution Growth, 礼来公司基金会, EPIQ Capital Group, Jeff Skoll| |Together AI|20240313|1.06|A|12|AI 基础设施和开源生成|模型|硬件和云平台|Salesforce Ventures, NEA, Kleiner Perkins, Lux Capital| |Glean|20240227|2.03|D|22|AI 驱动企业搜索|应用|企业服务|Lightspeed Venture Partners, Kleiner Perkins, Sequoia, Databricks Ventures| |Figure|20240224|6.75|B|27|AI 机器人|应用|机器人|Nvidia, OpenAI, 微软| |Abridge|20240223|1.5|C|8.5|AI 医疗对话转录|应用|医学|Redpoint, Lightspeed Venture Partners, USV, IVP, Spark Capital| |Recogni|20240220|1.02|C||AI 接口解决方案|基础设施|芯片|GreatPoint Ventures, Celesta Capital, Pledge Ventures, Mayfield, DNS Capital| 信息来源:Techcrunch
2025-01-21
ai 视频
以下是关于 AI 视频的相关内容: 软件教程: 视频模型:Sora,链接:https://waytoagi.feishu.cn/wiki/S5zGwt5JHiezbgk5YGic0408nBc 工具教程:Hedra,链接:https://waytoagi.feishu.cn/wiki/PvBwwvN36iFob7kqZktcCzZFnxd 应用教程:视频转绘,链接:https://waytoagi.feishu.cn/wiki/ZjKpwSd5hiy6ZhkiBVHcOBb6n9r 应用教程:视频拆解,链接:https://waytoagi.feishu.cn/wiki/WeKMwHRTmiVpYjkVdYpcFjqun6b 应用教程:图片精修,链接:https://waytoagi.feishu.cn/wiki/CfJLwknV1i8nyRkPaArcslWrnle 视频 AIGC 工具: Opusclip:利用长视频剪成短视频 Raskai:短视频素材直接翻译至多语种 invideoAI:输入想法>自动生成脚本和分镜描述>生成视频>人工二编>合成长视频 descript:屏幕/播客录制>PPT 方式做视频 veed.io:自动翻译自动字幕 clipchamp:微软的 AI 版剪映 typeframes:类似 invideoAI,内容呈现文本主体比重更多 google vids 工具详解:GoogleAI 视频 Veo2 官网介绍可以申请 waitlist:https://labs.google/fx/zh/tools/videofx 相关报道链接: https://mp.weixin.qq.com/s/4ACndSdfG8az3gdLn5QLIQ https://mp.weixin.qq.com/s/8H286tyxbTeZrtEBDZHaA https://mp.weixin.qq.com/s/sMECORvSikuKHNaEzPor6Q https://mp.weixin.qq.com/s/PFeyrX2q9mWd6GIrJ9qdWQ AI 绘图 Imagen3 绘图:https://labs.google/fx/tools/imagefx 相关报道链接: https://mp.weixin.qq.com/s/4ACndSdfG8az3gdLn5QLIQ https://mp.weixin.qq.com/s/8H286tyxbTeZrtEBDZHaA https://mp.weixin.qq.com/s/gcyGvA6_9mxN9yz__jRRHQ
2025-01-21
吴恩达大模型教程
以下是一些与吴恩达大模型相关的教程和资源: 面向开发者的 LLM 入门课程: 地址: 简介:一个中文版的大模型入门教程,围绕吴恩达老师的大模型系列课程展开,包括吴恩达《ChatGPT Prompt Engineering for Developers》课程中文版等。 提示工程指南: 地址: 简介:基于对大语言模型的兴趣编写的全新提示工程指南,介绍了相关论文研究等。 LangChain?️?中文网,跟着 LangChain 一起学 LLM/GPT 开发: 地址: 简介:由两位 LLM 创业者维护的 Langchain 中文文档。 LLM 九层妖塔: 地址: 简介:包含 ChatGLM 等实战与经验。 目录:吴恩达讲 Prompt https://github.com/zard1152/deepLearningAI/wiki Coze 复刻:吴恩达开源的 AI 翻译项目 复刻步骤:包括配置反思优化的提示词、结合反思优化建议再次翻译、选择输出方式等。 大语言模型分为基础 LLM 和指令微调 LLM 两类。基础 LLM 经过训练可根据文本预测下一个词,指令微调 LLM 经过训练能遵循指令,为让系统更有帮助并遵循指令,通常会使用人类反馈强化学习(RLHF)技术优化。提示的关键原则包括尽可能保证下达的指令“清晰、没有歧义”,给大模型思考的时间以及足够的时间去完成任务。
2025-01-21