Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

什么是Stable Diffusion

Answer

Stable Diffusion 是一种扩散模型的变体,最初称为潜在扩散模型(Latent Diffusion Models)。

它的核心技术来源于 AI 视频剪辑技术创业公司 Runway 的 Patrick Esser 以及慕尼黑大学机器视觉学习组的 Robin Romabach,其技术基础主要来自于他们之前在计算机视觉大会 CVPR22 上合作发表的潜扩散模型研究。

Stable Diffusion 是一种基于潜在扩散模型的文本到图像生成模型,能够根据任意文本输入生成高质量、高分辨率、高逼真的图像。其原理包括:使用新颖的文本编码器(OpenCLIP)将文本输入转换为向量表示以捕捉语义信息并与图像空间对齐;使用扩散模型将随机噪声图像逐渐变换为目标图像,该模型能从训练数据中学习概率分布并采样新数据;在扩散过程中利用文本向量和噪声图像作为条件输入给出每步变换的概率分布,以根据文本指导噪声图像向目标图像收敛并保持图像清晰度和连贯性;使用超分辨率放大器将生成的低分辨率图像放大到更高分辨率,该放大器也是扩散模型,能从低分辨率图像中恢复细节信息并增强图像质量。

简单来说,Stable Diffusion 就是一个 AI 自动生成图片的软件,通过输入文字就能生成对应的图片。它具有能处理任意领域和主题的文本输入并生成多样化和富有创意的图像、生成高达 2048x2048 或更高分辨率且保持良好视觉效果和真实感等优点。

Content generated by AI large model, please carefully verify (powered by aily)

References

第二课 《ComfyUI基础知识》 By 郭佑萌 @ ?WaytoAGI 2024.8.15 .pdf

‎的去噪结果。然而,这种迭代性质在计算效率上带来了挑战,特别是在处理大尺寸图像和‎大量扩散步骤(T)时。在采样过程中,从高斯噪声中去噪图像可能需要很长时间。为了解‎决这一问题,一组研究人员提出了一种新的方法,称为稳定扩散(Stable Diffusion),‎最初称为潜在扩散模型(Latent Diffusion Models)‎Stable Diffusion‎Stable Diffusion是一种扩散模型(diffusion model)的变体,叫做“潜在扩散模[heading1]‎型”(Latent Diffusion Models)[content]‎CLIP‎将用户输入的Prompt文本转化成text embedding‎核心的组件‎VAE Encoder-Decoder‎UNET‎UNET进行迭代降噪,在文本引导下进行多轮预测‎High-Resolution Image Synthesis with Latent Diffusion Models‎ComfyUI存放路径:models/checkpoints/‎SD1.5‎SD基础预训练模型‎SDXL‎SD1.5‎模型实例‎SDXL‎训练方法‎DreamBooth,by Google‎EMA-only&pruned VS Full‎FP16&FP32‎格式‎.pt VS.safetensor‎Bake in VAE‎模型自带已适配的VAE‎SD微调模型‎概念学习‎Checkpoint‎作用‎source:stable-diffusion-art.com/models/#How_are_models_created‎1puppy‎训练要求‎sd1.5‎12G VARM‎SDXL‎16G VARM‎The merged model sits between the realistic F222 and the anime Anything V3‎styles.It is a very good model for generating illustration art with human figures.‎(source:stable-diffusion-art.com/models/#Example_of_a_merged_model)‎融合模型‎checkpoint+checkpoint‎Lora+Lora‎形式‎checkpoint+Lora‎Baking VAE

教程:超详细的Stable Diffusion教程

简单来说,Stable Diffusion(简称SD)就是一个AI自动生成图片的软件通过我们输入文字,SD就能生成对应的一张图片,不再需要像以前一样要把图片“画”出来,或者是“拍”出有的人说,我学习一个软件之前是不是要先知道它的原理呢?我的回答是:不需要!下面这张图就是我在网上保存的SD的原理图看得懂吗?看不懂,我也看不懂影响使用吗?完全不影响!很多人想学习stable diffusion,上网一搜,大多数教程都先告诉你SD的原理是什么但偏偏就是这一步就劝退了很多人继续学习因为这看起来真的好像很复杂很难但事实是:大多数的我们只是要能够熟练使用SD而不是要深入研究它我们还有自己的学习和工作因此,我们的目的就是花更少的时间快速入门Stable Diffusion当然了,如果你的时间比较充裕,去把SD的原理也了解了也是可以的跟大家说这些是想告诉大家学习SD真的非常简单!!这篇文章就会带大家通过一个个案例,实际上手操作生成各种照片我相信在你看完这篇文章并且自己去尝试过之后你就已经可以快速上手stable diffusion了!!接下来我们就正式开始去使用stable diffusion!!

软件:SD基本介绍

Stable Diffusion核心技术来源于AI视频剪辑技术创业公司Runway的Patrick Esser,以及慕尼黑大学机器视觉学习组的Robin Romabach。该项目的技术基础主要来自于这两位开发者之前在计算机视觉大会CVPR22上合作发表的潜扩散模型(Latent Diffusion Model)研究。Stable diffusion是一种基于潜在扩散模型(Latent Diffusion Models)的文本到图像生成模型,能够根据任意文本输入生成高质量、高分辨率、高逼真的图像。Stable diffusion的原理可以分为以下几个步骤:1.stable diffusion使用一个新颖的文本编码器(OpenCLIP),由LAION开发并得到Stability AI的支持,将文本输入转换为一个向量表示。这个向量表示可以捕捉文本的语义信息,并与图像空间对齐。2.stable diffusion使用一个扩散模型(Diffusion Model),将一个随机噪声图像逐渐变换为目标图像。扩散模型是一种生成模型,可以从训练数据中学习出一个概率分布,并从中采样出新的数据。3.在扩散过程中,stable diffusion利用文本向量和噪声图像作为条件输入,给出每一步变换的概率分布。这样,stable diffusion可以根据文本指导噪声图像向目标图像收敛,并保持图像的清晰度和连贯性。4.最后,stable diffusion使用一个超分辨率放大器(Upscaler Diffusion Model),将生成的低分辨率图像放大到更高的分辨率。超分辨率放大器也是一个扩散模型,可以从低分辨率图像中恢复出细节信息,并增强图像质量。通过以上步骤,Stable diffusion可以实现从文本到图像的生成,并且具有以下优点:-stable diffusion可以处理任意领域和主题的文本输入,并生成与之相符合的多样化和富有创意的图像。-stable diffusion可以生成高达2048x2048或更高的分辨率的图像,并且保持了良好的视觉效果和真实感。

Others are asking
现在Ai作图用什么?还是以前的Stable Diffusion吗?还是又出现了新的开源软件?
目前在 AI 作图领域,Stable Diffusion 仍然是常用的工具之一。Stable Diffusion 是 AI 绘画领域的核心模型,能够进行文生图和图生图等图像生成任务,其完全开源的特点使其能快速构建强大繁荣的上下游生态。 除了 Stable Diffusion,也出现了一些新的相关开源软件和工具,例如: :Stability AI 开源的 AI 图像生成平台。 :拥有超过 700 种经过测试的艺术风格,可快速搜索查找各类艺术家,并支持一键复制 Prompt。 同时,市面上主流的 AI 绘图软件还有 Midjourney,其优势是操作简单方便,创作内容丰富,但需要科学上网并且付费。如果您想尝试使用 Stable Diffusion,可以参考 B 站【秋葉 aaaki】这个 Up 主的视频了解具体的安装方法。
2025-03-24
什么是Diffusion Model
在 AI 图像生成中,“Diffusion Model”(扩散模型)是一类生成模型。其工作原理包括以下几个方面: 1. 正向扩散过程:向图像逐渐添加高斯噪声,直至图像完全无法识别,此过程可形式化为顺序扩散马尔可夫链。 2. 潜空间表示:将图像压缩到低维的潜在空间中,以减少计算量并提高生成速度。 3. 学习逆向过程:训练神经网络来预测每一步中噪声的分布,并逐步去除噪声以恢复清晰图像。 4. 文本到图像的生成:结合文本编码器和图像解码器,依据文本描述生成相应图像。 扩散模型的关键优势在于能够生成高质量的图像,且相比其他生成模型(如 GANs)在计算效率和稳定性方面更具优势。例如 Stable Diffusion 等模型就是基于扩散模型的文本到图像生成工具,可根据文本提示生成逼真的图像。 扩散模型的逆向过程,即从噪声中恢复图像的过程,可类比为雕刻,AI 逐步去除不必要的部分,最终得到清晰的图像。这个过程可以逐步进行,也可以一次性完成,取决于模型的具体实现和采样算法。 总的来说,扩散模型为 AI 图像生成提供了强大的技术手段,能在多种场景下生成高质量的图像。例如 Midjourney 就是一个由 Latent Diffusion Model(LDM)驱动的 AI 图像生成工具,它通过文本提示和参数输入,利用基于大量图像数据训练的机器学习算法生成独特的图像。
2025-03-21
Stable Diffusion 是 Diffusion Model 的优化版本,引入了潜在空间(Latent Space)技术,这个潜在空间(Latent Space)是什么意思,它的实现原理是什么?
在 Stable Diffusion 模型中,潜在空间(Latent Space)指的是图像的潜在分布,它包含了与图像相关的所有信息。 图像被映射到潜在空间后,扩散过程在这个空间中进行。ComfyUI 中的许多操作都在潜在空间中进行,如 KSampler 节点就是在这个空间中执行采样过程。在潜在空间中,通过节点调整对潜在空间的操作,如噪声添加、去噪步数等,这部分通常由潜在空间操作模块来实现。 在 Stable Diffusion 模型中,图像的潜在分布是通过一个编码器解码器结构来学习的。编码器将图像映射到潜在空间,而解码器则将潜在空间中的向量映射回图像空间。通过这种方式,模型可以学习到图像的潜在分布,从而实现图像生成、编辑和操作。 在采样过程中,Stable Diffusion 模型通过逐步降低噪声水平来生成图像。在这个过程中,模型根据当前的噪声水平预测图像的潜在分布,然后根据这个分布生成一个新的图像。这个过程重复进行,直到生成一个高质量的图像。 与之对应的是像素空间(Pixel Space),像素空间指的是图像中每个像素的原始颜色或强度值所组成的空间。图像可以看作是一个二维或三维的矩阵,其中每个元素代表一个像素。在像素空间中,图像的表示是密集的,且包含了大量的细节信息。
2025-03-21
Stable Diffusion有哪些模型
Stable Diffusion 模型包括以下几种: 1. Stable Video Diffusion 模型: 避坑指南:直接使用百度网盘准备好的资源可规避大部分坑;若报显存溢出问题,可调低帧数或增加 novram 启动参数;云部署实战部分,基础依赖模型权重有两个 models–laion–CLIPViTH14laion2Bs32Bb79K 和 ViTL14.pt,需放到指定路径下。 总结:Sora 发布后,之前的视频生成模型略显逊色,Stable Video Diffusion 作为开源项目可自由创作无需充值,有独特优势。其生成的视频画质清晰、过渡自然,虽目前只能生成最多 4 秒视频,但在不断迭代。 2. 潜在扩散模型(Latent Diffusion Models): CLIP:将用户输入的 Prompt 文本转化成 text embedding。 核心组件:VAE EncoderDecoder、UNET(进行迭代降噪,在文本引导下进行多轮预测)。 存放路径:ComfyUI 存放路径为 models/checkpoints/。 基础预训练模型:SD1.5、SDXL。 训练方法:DreamBooth(by Google)。 格式:.pt、.safetensor。 融合模型:checkpoint+checkpoint、Lora+Lora、checkpoint+Lora。 模型自带已适配的 VAE。 微调模型:概念学习、Checkpoint。 3. 不同版本模型对比: Stable Diffusion 2.0 系列模型。 Stable Diffusion 2.1 系列模型。 Stable Diffusion 1.6 系列模型。 SD Turbo 模型。 4. 性能优化方面: 使用 TF32 精度加速 SD 模型训练与推理。 使用 FP16 半精度加速。 对注意力模块进行切片。 对 VAE 进行切片。 大图像切块。 CPU<>GPU 切换。 变换 Memory Format。 使用 xFormers 加速 SD 模型训练与推理。 使用 tomesd 加速 SD 模型推理。 使用 torch.compile 加速 SD 推理速度。 此外,还有关于 Stable Diffusion 训练数据集制作、微调训练、基于其训练 LoRA 模型、训练结果测试评估等方面的内容。
2025-03-21
Stable Diffusion、MidJourney、DALL·E 这些生成式AI工具有什么区别
Stable Diffusion、Midjourney 和 DALL·E 这三个生成式 AI 工具主要有以下区别: 1. 开源性:Stable Diffusion 是开源的,用户可以在任何高端计算机上运行。 2. 学习曲线:Midjourney 的学习曲线较低,只需键入特定的提示就能得到较好的结果。 3. 图像质量:Midjourney 被认为是 2023 年中期图像质量最好的系统。 4. 应用场景:Stable Diffusion 特别适合将 AI 与来自其他源的图像结合;Adobe Firefly 内置在各种 Adobe 产品中,但在质量方面落后于 DALL·E 和 Midjourney。 5. 训练数据:这些工具都是使用大量的内容数据集进行训练的,例如 Stable Diffusion 是在从网络上抓取的超过 50 亿的图像/标题对上进行训练的。 6. 所属公司:DALL·E 来自 OpenAI。 在使用方面: 1. Stable Diffusion 开始使用需要付出努力,因为要学会正确制作提示,但一旦掌握,能产生很好的结果。 2. DALL·E 已纳入 Bing(需使用创意模式)和 Bing 图像创建器,系统可靠,但图像质量比 Midjourney 差。 3. Midjourney 需要 Discord,使用时需键入特定格式的提示。
2025-03-20
Stable Diffusion从哪可以使用
以下是关于 Stable Diffusion 的使用途径: 1. 模型获取: 在分享的链接中,有部分常用的大模型。文章的第三部分会详细介绍更多模型的下载途径及模型存放位置。 您可以从上的推理代码。 2. 低配置电脑使用: 可以通过云平台,如“青椒云”来畅玩 SD。点击链接 http://account.qingjiaocloud.com/signup?inviteCode=R0JJ9CHY 下载。 云平台使用步骤: 点击链接,注册账号。 下载并安装后,登录账号。 点击右上角个人中心进行实名认证。 进行实名认证后回到主界面,点击新增云桌面,选“AIGC 尝鲜”,新注册有优惠券可免费试用。 点击“开机”按钮,稍等后点击“进入桌面”,进入桌面后可关闭弹出框。 点击“此电脑”,在 C 盘找到 SD 根目录,点击“A 启动器.exe”。 点击右下角“一键启动”进入 SD。 用完记得关机,避免持续计费。
2025-03-07
Stable Diffusion 教程
以下是关于 Stable Diffusion 的教程: Stable Diffusion 是什么: 稳定扩散(Stable Diffusion)是一个 AI 自动生成图片的软件,通过输入文字就能生成对应的图片。 入门教程: 新人视频教程:https://waytoagi.feishu.cn/wiki/O5jEwgZIRiQ10xkqGOQcKtSBnSe 文字教程:https://zhuanlan.zhihu.com/p/622238031 模型网站: C 站SD 模型网站:https://civitai.com/ Liblibai模型+在线 SD:https://www.liblib.ai/ huggingface:https://huggingface.co/models?pipeline_tag=texttoimage&sort=trending 吐司站:https://tusiart.com/ 推荐模型:人像摄影模型介绍:https://www.bilibili.com/video/BV1DP41167bZ 为什么要学 Stable Diffusion 及其强大之处: 学习 Stable Diffusion 非常简单,目的是花更少时间快速入门。 它可以生成真人 AI 美女、头像、壁纸,辅助绘画,还能用于恢复画质、室内设计等,有很多功能和应用场景。 希望以上内容对您有所帮助。
2025-03-04