Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

FLUX stable diffusion

Answer

以下是关于 FLUX stable diffusion 的相关信息:

  • ComfyUI 的生图原理:ComfyUI 使用预训练的扩散模型作为核心,包括 FLUX 等模型。在节点化界面中,用户可通过不同模块控制潜在空间操作、U-Net 中的推理步骤及条件输入。
  • 稳定扩散的运作:稳定扩散通过逐步去除图像中的噪点来生成艺术作品,它了解世界和书面语言以指导噪点消除过程。
  • Flux 工具:
    • 制作团队:原 stable diffusion 核心团队因开源理念不合,成立“黑森林”团队,推出 Flux。
    • 型号:首次发布三种型号,包括 Flux pro(闭源使用)、Flux dev(开源,供学习研究,不支持商用)、Flux schnell(开源,开源最彻底,支持商用)。
    • 参数量:参数训练量达 12B,语言支持自然语言。相比之下,SD3 Large 训练参数 8B,SD3 Medium 训练参数 2B。
    • 硬件要求:推理 dev 版本的 Flux 模型时,最低显存需要 16G,建议 24G,模型本身大小约 22G。训练时,优化后 16G 可训练 Lora 模型,DB 方式训练微调模型除显存最低 24G 外,内存需 32G 以上。
Content generated by AI large model, please carefully verify (powered by aily)

References

ComfyUI的生图原理 副本

结合ComfyUI的生图原理,这张图展示了扩散模型中的加噪和去噪过程。在ComfyUI的节点化界面中,每一步的操作都可以通过不同的模块来实现,用户可以控制潜在空间中的操作(如调度器和噪声的选择)、U-Net中的推理步骤(通过去噪模块实现)、以及条件输入(通过文本提示或图像引导)。[heading1]一、基础模型[content]ComfyUI使用预训练的扩散模型作为其核心,通常是Stable Diffusion模型。这些模型通过大量图像和文本对的训练,学会了将文本描述与视觉概念关联起来。其中包括SD1.5、SD2.0、SDXL、SD3、FLUX等模型。[heading1]二、文本编码[content]当用户输入文本提示时,ComfyUI首先使用CLIP(Contrastive Language-Image Pre-training)文本编码器将文本转换为向量表示。这个向量捕捉了文本的语义信息。

稳定扩散(Stable Diffusion)是如何运作的

如果您曾尝试在太暗的情况下拍照,而拍出的照片全是颗粒状,那么这种颗粒状就是图像中“噪点”的一个例子。我们使用Stable Diffusion来生成艺术作品,但它实际上在幕后所做的是“清理”图像!不过,它比手机图像编辑器中的噪点消除滑块复杂得多。它实际上了解世界的样子、了解书面语言,并利用这些来指导(噪点消除)过程。例如,想象一下,如果我给了下面左边的图像给一位熟练的平面艺术家,并告诉他们这是一幅以H.R。Giger(瑞士画家、雕塑家与布景师,《异形》中的外星生物就是他的作品)的风格描绘的外星人弹吉他的画。我打赌他们可以精心清理它,创造出像右图那样的东西。(这些是稳定扩散的实际图像!)艺术家会利用他们对Giger的艺术作品的了解,以及对世界的了解(例如吉他应该是什么样子以及如何弹奏)来做到这一点。稳定扩散本质上是在做同样的事情![heading2]“推理步骤”[content]你熟悉大多数艺术生成工具中的“推理步骤”滑块吗?稳定扩散是逐步去除噪点的。这是一个运行25步的例子:外星吉他手的例子更有意义,因为你可以更清楚地看出它应该是什么样子的……但在上图中,起始图像看起来完全无法辨认!实际上,这个充满噪点的外星人例子其实是从过程的大约一半开始取的——它(最开始的图像)实际上也是从完全的噪点开始的!

工具教程:Flux

作者:郑敏轩/Mike/六耳@郑敏轩https://space.bilibili.com/3461579519560151?spm_id_from=333.999.0.0[heading2]Flux制作团队由来:[content]Flux模型团队制作者:原stable diffusion核心团队因开源理念不合,出来成立“黑森林”团队。黑森林获3200万美元投资,拿出第一款产品:Flux[heading2]首次一次发布三种型号:[content]拿出来时有三种型号:Flux pro(最好的,闭源使用)Flux dev(开源,供学习研究使用,不支持商用)Flux schnell(开源,开源最彻底,支持商用)[heading2]参数量比较:[content]Flux的参数训练量达到了12B,且语言支持自然语言。12B我们类比一下8月6日的智谱发布的开源视频模型CogVideoX-2B,开源的是2B的一个模型,所以模型的视频推理结果不如快手的可灵。8月28日智谱最新开源了5B的视频模型。视频还在5B,由此可见图像12B确实是一个高度(开源里面)所以Flux一出现就占据极重要影响。Flux:训练参数12B(120亿)SD3 Large:训练参数8B(80亿)SD3 Medium:训练参数2B(20亿)[heading2]硬件要求变高:[content]由参数带来的,是硬件要求变高,推理dev版本的Flux模型时,最低显存需要16G,建议24G,模型本身大小是22多G,如果训练的话,经过优化目前16G也可以训练Lora模型,但是DB方式训练微调模型的话,除显存最低要24G外,要求内存也需要32G以上才行。

Others are asking
FLUX模型训练
以下是关于 Flux 的 Lora 模型训练的详细步骤: 1. 模型准备: 下载所需模型,包括 t5xxl_fp16.safetensors、clip_l.safetensors、ae.safetensors、flux1dev.safetensors。 注意:不使用时模型存放位置不限,但要知晓路径;训练时建议使用 flux1dev.safetensors 和 t5xxl_fp16.safetensors 版本。 2. 下载脚本: 夸克网盘链接:https://pan.quark.cn/s/ddf85bb2ac59 百度网盘链接:https://pan.baidu.com/s/1pBHPYpQxgTCcbsKYgBi_MQ?pwd=pfsq 提取码:pfsq 3. 数据集准备: 建议使用自然语言,与之前 SDXL 的训练类似。 数据集存放位置:.Flux_train_20.4\\train\\qinglong\\train 。 若未准备数据集,此路径中有试验数据集可直接使用。 4. 运行训练:约 1 2 小时即可完成训练。 5. 验证和 lora 跑图:若有 comfyUI 基础,在原版工作流的模型后面,多加一个 LoraloaderModelOnly 的节点,自行选择 Lora 并调节参数。 6. 修改脚本路径和参数: 若显卡为 16G,右键 16G 的 train_flux_16GLora 文件;若显卡为 24G 或更高,右键 24G 的 train_flux_24GLora 文件。 用代码编辑器打开,理论上只需修改红色部分,包括底模路径、VAE 路径、数据集路径、clip 路径和 T5xxl 路径。注意路径格式,避免错误。蓝色部分为备注名称,可改可不改。建议经验丰富后再修改其他深入参数,并做好备份管理。
2025-01-20
FLUX低显存怎么安装
如果您的显存较低,安装 FLUX 可以参考以下步骤: 1. NF4 模型下载: 链接:https://huggingface.co/lllyasviel/flux1devbnbnf4/blob/main/flux1devbnbnf4.safetensors 放置位置:ComfyUI/models/checkpoint/中(不像其他 Flux 模型那样放置在 UNET 中) NF4 配套节点插件:git clone https://github.com/comfyanonymous/ComfyUI_bitsandbytes_NF4.git 2. GGUF 模型下载: 链接:Flux GGUF 模型:https://huggingface.co/city96/FLUX.1devgguf/tree/main GGUF 配套节点插件:GGUF 节点包:https://github.com/city96/ComfyUIGGUF 值得一提的是在最新版本的 ComfyUI 中,GGUF 的节点插件可以在 Manager 管理器中搜到下载安装,NF4 的配套节点插件则搜不到。 3. 对于 8G 以下显存的方案: flux1devbnbnf4.safetensors 放入 ComfyUI\\models\\checkpoints 文件夹内。 ComfyUI_c_NF4 节点:https://github.com/comfyanonymous/ComfyUI_bitsandbytes_NF4 注:如果报错,请更新 BitsandBytes 库。下载放入解压后 ComfyUI\\custom_node 文件夹内,重启 ComfyUI,如果之前没更新,更新后再重启。 相关资源链接: BitsandBytes Guidelines and Flux:https://github.com/lllyasviel/stablediffusionwebuiforge/discussions/981 ComfyUI_bitsandbytes_NF4 节点:https://github.com/comfyanonymous/ComfyUI_bitsandbytes_NF4 flux1devbnbnf4.safetensors:https://huggingface.co/lllyasviel/flux1devbnbnf4/blob/main/flux1devbnbnf4.safetensors 注意使用精度优化的低配模型的话,工作流和原版是不一样的。自己改的话就是把上面官方的这个 fp8 的工作流,只需把底模的节点换成 NF4 的或者 GUFF 的即可。相关生态发展很快,有 Lora、Controlnet、IPadpter 相关生态建设非常速度,以及字节最近发布的 Flux Hyper lora 是为了 8 步快速生图。
2025-01-09
comy UI FLUX 低显存
ComfyUI FLUX 低显存运行的相关内容如下: 工作流: 目的是让 FLUX 模型能在较低的显存情况下运行。 分阶段处理思路: 先使用 Flux 模型在较低分辨率下进行初始生成以提高效率。 采用两阶段处理,先用 Flux 生成,后用 SDXL 放大,有效控制显存的使用。 使用 SD 放大提升图片质量。 工作流的流程: 初始图像生成(Flux): UNETLoader:加载 flux1dev.sft 模型。 DualCLIPLoader:加载 t5xxl 和 clip_l 模型。 VAELoader:加载 fluxae.sft。 CLIPTextEncode:处理输入提示词。 BasicGuider 和 RandomNoise:生成初始噪声和引导。 SamplerCustomAdvanced:使用 Flux 模型生成初始图像。 VAEDecode:解码生成的潜在图像。 初始图像预览:PreviewImage 显示 Flux 生成的初始图像。 图像放大和细化(SDXL): CheckpointLoaderSimple:加载 SDXL 模型(fenrisxl_SDXLLightning.safetensors)。 UpscaleModelLoader:加载 RealESRGAN_x4.pth 用于放大。 VAELoader:加载 sdxl_vae.safetensors。 ImageSharpen:对初始图像进行锐化处理。 UltimateSDUpscale:使用 SDXL 模型和放大模型进行最终的放大和细化。 最终图像预览:PreviewImage 显示最终放大和细化后的图像。 FLUX 模型的选择: 用半精度 fp8 dev 版本(能用单精度 dev 版本的尽量用),也适合 fp8 的 T8 模型,降低对内存的占用。 记得把 weight dtype 也设置为 fp8,降低对显存的使用。 建议:先关闭高清放大部分,等跑出来效果满意的图片后,再开启放大。 ComfyUI 简介: 是一个基于节点流程式的 stable diffusion AI 绘图工具 WebUI,可以想象成集成了 stable diffusion 功能的 substance designer,通过将 stable diffusion 的流程拆分成节点,实现更加精准的工作流定制和完善的可复现性。 优势: 对显存要求相对较低,启动速度快,出图速度快。 具有更高的生成自由度。 可以和 webui 共享环境和模型。 可以搭建自己的工作流程,可以导出流程并分享给别人,报错的时候能清晰发现错误出在哪一步。 生成的图片拖进后会还原整个工作流程,模型也会选择好。 劣势: 操作门槛高,需要有清晰的逻辑。 生态没有 webui 多(常用的都有),也有一些针对 Comfyui 开发的有趣插件。 官方链接:从 github 上下载作者部署好环境和依赖的整合包,按照官方文档安装即可:https://github.com/comfyanonymous/ComfyUI
2025-01-08
怎么用FLUX创作艺术作品
以下是使用 FLUX 创作艺术作品的方法: 1. 艺术风格 Lora 方面: 可选择如“art_lora 艺术风格”,其特点包括“Cat,European street,exploration,cozy,mysterious,colorful buildings,sunlight through leaves,cobblestone path,high definition,watercolor painting,warm tones,bright lighting effects,paper texture”。Lora 下载地址为:https://hfmirror.com/Kijai/fluxlorascomfyui/tree/main/xlabs 。 还有“FLUX超写实黑悟空V1”等风格,详情可点击:https://www.liblib.art/modelinfo/5e4a4cc0e3674818a9f8454a63cc0115?from=pic_detail 。 XLabsAI 发布了 6 个不同 Lora,包括“mjv6_lora Midjourney 风格”“realism_lora 写实风格”“anime_lora 动漫风格”“disney_lora 迪斯尼风格”“scenery_lora 风景风格”,并提供了相应示例。 2. Lora 使用方法: 下载 lora 文件。 放入 comfy/models/loras 文件夹内。 使用 ComfyUI 工作流(其实就是上面文生图基础工作流加上一个简易 Lora 加载器),加载您需要的 Lora 风格。工作流文件如“flux1+lora 加载.json”,可通过 https://bytedance.feishu.cn/space/api/box/stream/download/all/KZoGbKe3yo4YHgxnNg6cELfPnwg?allow_redirect=1 下载。 3. 教程参考: 。 4. 示例作品:大家可以在哩布的返图区找到更多灵感,群友作品包括鹏程、海波、CYCHENYUE 等。
2024-10-27
webui可以用FLUX模型吗
WebUI 可以使用 FLUX 模型。以下是相关的下载和使用信息: ae.safetensors 和 flux1dev.safetensors 下载地址:https://huggingface.co/blackforestlabs/FLUX.1dev/tree/main 。 flux 相关模型(体积较大)的夸克网盘链接:https://pan.quark.cn/s/b5e01255608b 。 flux 相关模型(体积较大)的百度网盘链接:https://pan.baidu.com/s/1mCucHrsfRo5SttW03ei0g?pwd=ub9h 提取码:ub9h 。 如果 GPU 性能不足、显存不够,底模可以使用 fp8 的量化版模型,下载地址:https://huggingface.co/Kijai/fluxfp8/tree/main 。 下载 dev 的工作流: 或者官方原版的图片链接 https://comfyanonymous.github.io/ComfyUI_examples/flux/flux_dev_example.png ,打开 ComfyUI,把工作流或图片拖拽到 ComfyUI 里。 郑敏轩的 Flux 的 controlnet 系列中 TheMisto.ai 的 MistoLine 版: 注意:该 ControlNet 与 Flux1.dev 的 fp16/fp8 以及使用 Flux1.dev 量化的其他模型兼容。 需要节点(可以 git clone 方式下载或通过以下网盘): 夸克网盘:链接:https://pan.quark.cn/s/ad43dd5152a6 。 百度网盘:链接:https://pan.baidu.com/s/1NcOdG4AV68xTup8FvphsYA?pwd=lpvc 提取码:lpvc 。 模型: 夸克网盘:链接:https://pan.quark.cn/s/5551e813db21 。 百度网盘:链接:https://pan.baidu.com/s/1Ntf4MbTCGJ5TYDv6mgvqNQ?pwd=zhfq 提取码:zhfq 。 处理:将模型放到 ComfyUI\\models\\TheMisto_model 文件夹中。 导入官方工作流 。所需要的两个模型:
2024-10-25
webui可以用FLUX模型吗
WebUI 可以使用 FLUX 模型。以下是相关的下载和使用信息: ae.safetensors 和 flux1dev.safetensors 的下载地址:https://huggingface.co/blackforestlabs/FLUX.1dev/tree/main 。 夸克网盘链接:https://pan.quark.cn/s/b5e01255608b 百度网盘链接:https://pan.baidu.com/s/1mCucHrsfRo5SttW03ei0g?pwd=ub9h 提取码:ub9h 如果 GPU 性能不足、显存不够,底模可以使用 fp8 的量化版模型,下载地址:https://huggingface.co/Kijai/fluxfp8/tree/main 。 dev 的工作流: 官方原版的图片链接:https://comfyanonymous.github.io/ComfyUI_examples/flux/flux_dev_example.png ,打开 ComfyUI ,把工作流或图片拖拽到 ComfyUI 里。 郑敏轩的 Flux 的 controlnet 系列: TheMisto.ai 的 MistoLine 版,该 ControlNet 与 Flux1.dev 的 fp16/fp8 以及使用 Flux1.dev 量化的其他模型兼容。 节点: 可以 git clone 方式下载或通过压缩包。 夸克网盘:链接:https://pan.quark.cn/s/ad43dd5152a6 百度网盘:链接:https://pan.baidu.com/s/1NcOdG4AV68xTup8FvphsYA?pwd=lpvc 提取码:lpvc 模型: 夸克网盘:链接:https://pan.quark.cn/s/5551e813db21 百度网盘:链接:https://pan.baidu.com/s/1Ntf4MbTCGJ5TYDv6mgvqNQ?pwd=zhfq 提取码:zhfq 处理:将模型放到 ComfyUI\\models\\TheMisto_model 文件夹中。 导入官方工作流: ,所需要的两个模型。
2024-10-25
stable diffusion底层技术
Stable Diffusion 的底层技术主要来源于 AI 视频剪辑技术创业公司 Runway 的 Patrick Esser 以及慕尼黑大学机器视觉学习组的 Robin Romabach 之前在计算机视觉大会 CVPR22 上合作发表的潜扩散模型(Latent Diffusion Model)研究。 Stable Diffusion 是一种基于潜在扩散模型的文本到图像生成模型,其原理包括以下几个步骤: 1. 使用新颖的文本编码器(OpenCLIP),由 LAION 开发并得到 Stability AI 的支持,将文本输入转换为向量表示,以捕捉文本语义信息并与图像空间对齐。 2. 采用扩散模型,将随机噪声图像逐渐变换为目标图像。扩散模型是一种生成模型,能从训练数据中学习概率分布并采样新数据。 3. 在扩散过程中,利用文本向量和噪声图像作为条件输入,给出每一步变换的概率分布,根据文本指导噪声图像向目标图像收敛,并保持图像的清晰度和连贯性。 4. 使用超分辨率放大器(Upscaler Diffusion Model),将生成的低分辨率图像放大到更高分辨率,从低分辨率图像中恢复细节信息并增强图像质量。 此外,ComfyUI 的底层依赖 Stable Diffusion,去噪过程由 UNet 网络完成。UNet 是一种编码器解码器结构,能处理多尺度特征表示。在 ComfyUI 中,去噪的每个步骤通过模型推理模块实现,调用训练好的 UNet 模型逐步将噪声图像还原成有意义的图像。交叉注意力机制在 Stable Diffusion 中很重要,允许模型在生成过程中融入文本提示、图像、语义信息等条件,在 ComfyUI 中通过“文本提示”和“条件输入”节点实现。跳跃连接是 UNet 的核心部分,能在不同尺度之间共享特征,在 ComfyUI 的节点网络中表现为中间过程数据的流转。切换器代表在去噪过程中的不同阶段对特征流的控制,在 ComfyUI 中可通过修改模型参数节点或自定义网络结构节点对不同阶段的噪声去除策略进行微调。 Stable Diffusion 还具有以下优点: 1. 可以处理任意领域和主题的文本输入,并生成与之相符合的多样化和富有创意的图像。 2. 可以生成高达 2048x2048 或更高分辨率的图像,且保持良好的视觉效果和真实感。 它还可以进行深度引导和结构保留的图像转换和合成,例如根据输入图片推断出深度信息,并利用深度信息和文本条件生成新图片。
2025-04-15
stable video diffusion开发
以下是关于 Stable Video Diffusion 开发的相关信息: SVD 介绍: 简介:Stable Video Diffusion 是 Stability AI 于 2023 年 11 月 21 日发布的视频生成式大模型,用于高分辨率、先进的文本到视频和图像到视频生成的潜在视频扩散模型。它支持多种功能,用户可调整多种参数,但对硬件要求较高,支持的图片尺寸较小,应用场景受限。 模型版本:开源了两种图生视频的模型,一种能生成 14 帧的 SVD,另一种是可以生成 25 帧的 SVDXL,发布时通过外部评估超越了人类偏好研究中领先的封闭模型。 主要贡献:提出系统的数据管理工作流程,将大量未经管理的视频集合转变为高质量数据集;训练出性能优于现有模型的文本到视频和图像到视频模型;通过特定领域实验探索模型中运动和 3D 理解的强先验,预训练的视频扩散模型可转变为强大的多视图生成器,有助于克服 3D 领域数据稀缺问题。 部署实战避坑指南: 直接使用百度网盘里准备好的资源,可规避 90%的坑。 若一直报显存溢出问题,可调低帧数或增加 novram 启动参数。 云部署实战中,基础依赖模型权重有两个 models–laion–CLIPViTH14laion2Bs32Bb79K 和 ViTL14.pt,需放到指定路径下。 总结: Sora 发布后,此前的视频生成模型相形见绌,但 Stable Video Diffusion 作为开源项目可在自己机器上自由创作无需充值。SVD 生成的视频画质清晰,帧与帧过渡自然,能解决背景闪烁和人物一致性问题,虽目前最多生成 4 秒视频,与 Sora 的 60 秒差距大,但在不断迭代。我们会持续关注其技术及前沿视频生成技术,尝试不同部署微调方式,介绍更多技术模型,更多精彩内容后续放出。 同时,您还可以加入「AIGCmagic 社区」群聊交流讨论,涉及 AI 视频、AI 绘画、Sora 技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个方向,可私信或添加微信号:【m_aigc2022】,备注不同方向邀请入群。
2025-04-15
stable diffusion是runway和goole联合开的吗
Stable Diffusion(简称 SD)不是由 Runway 和 Google 联合开发的,而是由初创公司 StabilityAI、CompVis 与 Runway 合作开发的。 Stable Diffusion 是 2022 年发布的深度学习文本到图像生成模型,其核心技术来源于 AI 视频剪辑技术创业公司 Runway 的 Patrick Esser 以及慕尼黑大学机器视觉学习组的 Robin Romabach。该项目的技术基础主要来自于这两位开发者之前在计算机视觉大会 CVPR22 上合作发表的潜扩散模型(Latent Diffusion Model)研究。 Stable diffusion 是一种基于潜在扩散模型(Latent Diffusion Models)的文本到图像生成模型,能够根据任意文本输入生成高质量、高分辨率、高逼真的图像。其原理包括使用新颖的文本编码器将文本输入转换为向量表示,利用扩散模型将随机噪声图像逐渐变换为目标图像,在扩散过程中根据文本向量和噪声图像作为条件输入给出变换的概率分布,最后使用超分辨率放大器将生成的低分辨率图像放大到更高的分辨率。 围绕 Stable Diffusion 等基础模型的兴奋和关注正在产生惊人的估值,但新研究的不断涌现确保新模型将随着新技术的完善而更替。目前,这些模型在法律方面也面临挑战,例如其训练所使用的大量内容数据集通常是通过爬取互联网本身获得的,这可能会引发法律问题。
2025-04-15
stable diffusion开发公司
Stable Diffusion 是由初创公司 StabilityAI、CompVis 与 Runway 合作开发的。其核心技术来源于 AI 视频剪辑技术创业公司 Runway 的 Patrick Esser 以及慕尼黑大学机器视觉学习组的 Robin Romabach。该项目的技术基础主要来自于他们之前在计算机视觉大会 CVPR22 上合作发表的潜扩散模型(Latent Diffusion Model)研究。 Stable Diffusion 是一种基于潜在扩散模型(Latent Diffusion Models)的文本到图像生成模型,能够根据任意文本输入生成高质量、高分辨率、高逼真的图像。其原理包括使用新颖的文本编码器(OpenCLIP)将文本输入转换为向量表示,利用扩散模型将随机噪声图像逐渐变换为目标图像,在扩散过程中以文本向量和噪声图像作为条件输入给出变换的概率分布,最后使用超分辨率放大器将生成的低分辨率图像放大到更高分辨率。 Stable Diffusion 总共有 1B 左右的参数量,可以用于文生图、图生图、图像 inpainting、ControlNet 控制生成、图像超分等丰富的任务。在文生图任务中,将一段文本输入到模型中,经过一定迭代次数输出符合文本描述的图片;图生图任务则在输入文本基础上再输入一张图片,模型根据文本提示对输入图片进行重绘。输入的文本信息通过 CLIP Text Encoder 模型编码生成与文本信息对应的 Text Embeddings 特征矩阵,用于控制图像生成。源代码库为 github.com/StabilityAI/stablediffusion ,当前版本为 2.1 稳定版(2022.12.7),其代码模型权重已公开发布,可以在大多数配备有适度 GPU 的电脑硬件上运行。
2025-04-15
stable diffusion开发公司
Stable Diffusion 是由初创公司 Stability AI、CompVis 与 Runway 合作开发的。其核心技术来源于 AI 视频剪辑技术创业公司 Runway 的 Patrick Esser 以及慕尼黑大学机器视觉学习组的 Robin Romabach。该项目的技术基础主要来自于他们之前在计算机视觉大会 CVPR22 上合作发表的潜扩散模型(Latent Diffusion Model)研究。 Stable Diffusion 是一种基于潜在扩散模型(Latent Diffusion Models)的文本到图像生成模型,能够根据任意文本输入生成高质量、高分辨率、高逼真的图像。其原理包括使用新颖的文本编码器(OpenCLIP)将文本输入转换为向量表示,利用扩散模型将随机噪声图像逐渐变换为目标图像,在扩散过程中以文本向量和噪声图像作为条件输入给出变换概率分布,最后使用超分辨率放大器将生成的低分辨率图像放大到更高分辨率。 Stable Diffusion 总共有 1B 左右的参数量,可以用于文生图、图生图、图像 inpainting、ControlNet 控制生成、图像超分等丰富的任务。其代码模型权重已公开发布,可以在大多数配备有适度 GPU 的电脑硬件上运行,当前版本为 2.1 稳定版(2022.12.7),源代码库为 github.com/StabilityAI/stablediffusion 。
2025-04-15
有stable diffusion的学习教程吗
以下为您提供一些 Stable Diffusion 的学习教程: 1. 超详细的 Stable Diffusion 教程: 介绍了为什么要学习 Stable Diffusion 及其强大之处。 指出 Stable Diffusion 是能根据输入文字生成图片的软件。 强调学习目的是快速入门,而非深入研究原理,通过案例和实际操作帮助上手。 2. 深入浅出完整解析 Stable Diffusion(SD)核心基础知识 知乎: 包含 Stable Diffusion 系列资源。 零基础深入浅出理解 Stable Diffusion 核心基础原理,如模型工作流程、核心基础原理、训练全过程等。 解析 Stable Diffusion 核心网络结构,包括 SD 模型整体架构、VAE 模型、UNet 模型等。 介绍从 0 到 1 搭建使用 Stable Diffusion 模型进行 AI 绘画的流程。 列举 Stable Diffusion 经典应用场景。 讲解从 0 到 1 上手使用 Stable Diffusion 训练自己的 AI 绘画模型。 3. 视频教程: 「AI 绘画」软件比较与 stable diffusion 的优势: 「AI 绘画」零基础学会 Stable Diffusion: 「AI 绘画」革命性技术突破: 「AI 绘画」从零开始的 AI 绘画入门教程——魔法导论: 「入门 1」5 分钟搞定 Stable Diffusion 环境配置,消灭奇怪的报错: 「入门 2」stable diffusion 安装教程,有手就会不折腾: 「入门 3」你的电脑是否跑得动 stable diffusion?: 「入门 4」stable diffusion 插件如何下载和安装?:
2025-03-28