Navigate to WaytoAGI Wiki →

Home/Question List/Question Detail

关于Stable Diffusion的一切

Answer

Stable Diffusion（简称 SD）是 AI 绘画领域的一个核心模型，能够进行文生图（txt2img）和图生图（img2img）等图像生成任务。与 Midjourney 不同的是，Stable Diffusion 是一个完全开源的项目，这使得其能快速构建强大繁荣的上下游生态，并且吸引了越来越多的 AI 绘画爱好者加入其中，与 AI 行业从业者一起推动 AIGC 领域的发展与普惠。

Content generated by AI large model, please carefully verify (powered by aily)

References

教程：深入浅出完整解析Stable Diffusion（SD）核心基础知识 - 知乎

稳定扩散（Stable Diffusion）是如何运作的

教程：超详细的Stable Diffusion教程

原理：Stable diffusion不同模型变量的work pipeline：ckpt、lora等怎么work together的？

Others are asking

现在Ai作图用什么？还是以前的Stable Diffusion吗？还是又出现了新的开源软件？

目前在 AI 作图领域，Stable Diffusion 仍然是常用的工具之一。Stable Diffusion 是 AI 绘画领域的核心模型，能够进行文生图和图生图等图像生成任务，其完全开源的特点使其能快速构建强大繁荣的上下游生态。除了 Stable Diffusion，也出现了一些新的相关开源软件和工具，例如：：Stability AI 开源的 AI 图像生成平台。：拥有超过 700 种经过测试的艺术风格，可快速搜索查找各类艺术家，并支持一键复制 Prompt。同时，市面上主流的 AI 绘图软件还有 Midjourney，其优势是操作简单方便，创作内容丰富，但需要科学上网并且付费。如果您想尝试使用 Stable Diffusion，可以参考 B 站【秋葉 aaaki】这个 Up 主的视频了解具体的安装方法。

什么是Diffusion Model

在 AI 图像生成中，“Diffusion Model”（扩散模型）是一类生成模型。其工作原理包括以下几个方面： 1. 正向扩散过程：向图像逐渐添加高斯噪声，直至图像完全无法识别，此过程可形式化为顺序扩散马尔可夫链。 2. 潜空间表示：将图像压缩到低维的潜在空间中，以减少计算量并提高生成速度。 3. 学习逆向过程：训练神经网络来预测每一步中噪声的分布，并逐步去除噪声以恢复清晰图像。 4. 文本到图像的生成：结合文本编码器和图像解码器，依据文本描述生成相应图像。扩散模型的关键优势在于能够生成高质量的图像，且相比其他生成模型（如 GANs）在计算效率和稳定性方面更具优势。例如 Stable Diffusion 等模型就是基于扩散模型的文本到图像生成工具，可根据文本提示生成逼真的图像。扩散模型的逆向过程，即从噪声中恢复图像的过程，可类比为雕刻，AI 逐步去除不必要的部分，最终得到清晰的图像。这个过程可以逐步进行，也可以一次性完成，取决于模型的具体实现和采样算法。总的来说，扩散模型为 AI 图像生成提供了强大的技术手段，能在多种场景下生成高质量的图像。例如 Midjourney 就是一个由 Latent Diffusion Model（LDM）驱动的 AI 图像生成工具，它通过文本提示和参数输入，利用基于大量图像数据训练的机器学习算法生成独特的图像。

Stable Diffusion 是 Diffusion Model 的优化版本，引入了潜在空间（Latent Space）技术，这个潜在空间（Latent Space）是什么意思，它的实现原理是什么？

在 Stable Diffusion 模型中，潜在空间（Latent Space）指的是图像的潜在分布，它包含了与图像相关的所有信息。图像被映射到潜在空间后，扩散过程在这个空间中进行。ComfyUI 中的许多操作都在潜在空间中进行，如 KSampler 节点就是在这个空间中执行采样过程。在潜在空间中，通过节点调整对潜在空间的操作，如噪声添加、去噪步数等，这部分通常由潜在空间操作模块来实现。在 Stable Diffusion 模型中，图像的潜在分布是通过一个编码器解码器结构来学习的。编码器将图像映射到潜在空间，而解码器则将潜在空间中的向量映射回图像空间。通过这种方式，模型可以学习到图像的潜在分布，从而实现图像生成、编辑和操作。在采样过程中，Stable Diffusion 模型通过逐步降低噪声水平来生成图像。在这个过程中，模型根据当前的噪声水平预测图像的潜在分布，然后根据这个分布生成一个新的图像。这个过程重复进行，直到生成一个高质量的图像。与之对应的是像素空间（Pixel Space），像素空间指的是图像中每个像素的原始颜色或强度值所组成的空间。图像可以看作是一个二维或三维的矩阵，其中每个元素代表一个像素。在像素空间中，图像的表示是密集的，且包含了大量的细节信息。

Stable Diffusion有哪些模型

Stable Diffusion 模型包括以下几种： 1. Stable Video Diffusion 模型：避坑指南：直接使用百度网盘准备好的资源可规避大部分坑；若报显存溢出问题，可调低帧数或增加 novram 启动参数；云部署实战部分，基础依赖模型权重有两个 models–laion–CLIPViTH14laion2Bs32Bb79K 和 ViTL14.pt，需放到指定路径下。总结：Sora 发布后，之前的视频生成模型略显逊色，Stable Video Diffusion 作为开源项目可自由创作无需充值，有独特优势。其生成的视频画质清晰、过渡自然，虽目前只能生成最多 4 秒视频，但在不断迭代。 2. 潜在扩散模型（Latent Diffusion Models）： CLIP：将用户输入的 Prompt 文本转化成 text embedding。核心组件：VAE EncoderDecoder、UNET（进行迭代降噪，在文本引导下进行多轮预测）。存放路径：ComfyUI 存放路径为 models/checkpoints/。基础预训练模型：SD1.5、SDXL。训练方法：DreamBooth（by Google）。格式：.pt、.safetensor。融合模型：checkpoint+checkpoint、Lora+Lora、checkpoint+Lora。模型自带已适配的 VAE。微调模型：概念学习、Checkpoint。 3. 不同版本模型对比： Stable Diffusion 2.0 系列模型。 Stable Diffusion 2.1 系列模型。 Stable Diffusion 1.6 系列模型。 SD Turbo 模型。 4. 性能优化方面：使用 TF32 精度加速 SD 模型训练与推理。使用 FP16 半精度加速。对注意力模块进行切片。对 VAE 进行切片。大图像切块。 CPU<>GPU 切换。变换 Memory Format。使用 xFormers 加速 SD 模型训练与推理。使用 tomesd 加速 SD 模型推理。使用 torch.compile 加速 SD 推理速度。此外，还有关于 Stable Diffusion 训练数据集制作、微调训练、基于其训练 LoRA 模型、训练结果测试评估等方面的内容。

什么是Stable Diffusion

Stable Diffusion 是一种扩散模型的变体，最初称为潜在扩散模型（Latent Diffusion Models）。它的核心技术来源于 AI 视频剪辑技术创业公司 Runway 的 Patrick Esser 以及慕尼黑大学机器视觉学习组的 Robin Romabach，其技术基础主要来自于他们之前在计算机视觉大会 CVPR22 上合作发表的潜扩散模型研究。 Stable Diffusion 是一种基于潜在扩散模型的文本到图像生成模型，能够根据任意文本输入生成高质量、高分辨率、高逼真的图像。其原理包括：使用新颖的文本编码器（OpenCLIP）将文本输入转换为向量表示以捕捉语义信息并与图像空间对齐；使用扩散模型将随机噪声图像逐渐变换为目标图像，该模型能从训练数据中学习概率分布并采样新数据；在扩散过程中利用文本向量和噪声图像作为条件输入给出每步变换的概率分布，以根据文本指导噪声图像向目标图像收敛并保持图像清晰度和连贯性；使用超分辨率放大器将生成的低分辨率图像放大到更高分辨率，该放大器也是扩散模型，能从低分辨率图像中恢复细节信息并增强图像质量。简单来说，Stable Diffusion 就是一个 AI 自动生成图片的软件，通过输入文字就能生成对应的图片。它具有能处理任意领域和主题的文本输入并生成多样化和富有创意的图像、生成高达 2048x2048 或更高分辨率且保持良好视觉效果和真实感等优点。

Stable Diffusion、MidJourney、DALL·E 这些生成式AI工具有什么区别

Stable Diffusion、Midjourney 和 DALL·E 这三个生成式 AI 工具主要有以下区别： 1. 开源性：Stable Diffusion 是开源的，用户可以在任何高端计算机上运行。 2. 学习曲线：Midjourney 的学习曲线较低，只需键入特定的提示就能得到较好的结果。 3. 图像质量：Midjourney 被认为是 2023 年中期图像质量最好的系统。 4. 应用场景：Stable Diffusion 特别适合将 AI 与来自其他源的图像结合；Adobe Firefly 内置在各种 Adobe 产品中，但在质量方面落后于 DALL·E 和 Midjourney。 5. 训练数据：这些工具都是使用大量的内容数据集进行训练的，例如 Stable Diffusion 是在从网络上抓取的超过 50 亿的图像/标题对上进行训练的。 6. 所属公司：DALL·E 来自 OpenAI。在使用方面： 1. Stable Diffusion 开始使用需要付出努力，因为要学会正确制作提示，但一旦掌握，能产生很好的结果。 2. DALL·E 已纳入 Bing（需使用创意模式）和 Bing 图像创建器，系统可靠，但图像质量比 Midjourney 差。 3. Midjourney 需要 Discord，使用时需键入特定格式的提示。

Stable Diffusion从哪可以使用

以下是关于 Stable Diffusion 的使用途径： 1. 模型获取：在分享的链接中，有部分常用的大模型。文章的第三部分会详细介绍更多模型的下载途径及模型存放位置。您可以从上的推理代码。 2. 低配置电脑使用：可以通过云平台，如“青椒云”来畅玩 SD。点击链接 http://account.qingjiaocloud.com/signup?inviteCode=R0JJ9CHY 下载。云平台使用步骤：点击链接，注册账号。下载并安装后，登录账号。点击右上角个人中心进行实名认证。进行实名认证后回到主界面，点击新增云桌面，选“AIGC 尝鲜”，新注册有优惠券可免费试用。点击“开机”按钮，稍等后点击“进入桌面”，进入桌面后可关闭弹出框。点击“此电脑”，在 C 盘找到 SD 根目录，点击“A 启动器.exe”。点击右下角“一键启动”进入 SD。用完记得关机，避免持续计费。