知識ベースとの対話 - FLUX stable diffusion

回答

以下是关于 FLUX stable diffusion 的相关信息：

ComfyUI 的生图原理：ComfyUI 使用预训练的扩散模型作为核心，包括 FLUX 等模型。在节点化界面中，用户可通过不同模块控制潜在空间操作、U-Net 中的推理步骤及条件输入。
稳定扩散的运作：稳定扩散通过逐步去除图像中的噪点来生成艺术作品，它了解世界和书面语言以指导噪点消除过程。
Flux 工具：
- 制作团队：原 stable diffusion 核心团队因开源理念不合，成立“黑森林”团队，推出 Flux。
- 型号：首次发布三种型号，包括 Flux pro（闭源使用）、Flux dev（开源，供学习研究，不支持商用）、Flux schnell（开源，开源最彻底，支持商用）。
- 参数量：参数训练量达 12B，语言支持自然语言。相比之下，SD3 Large 训练参数 8B，SD3 Medium 训练参数 2B。
- 硬件要求：推理 dev 版本的 Flux 模型时，最低显存需要 16G，建议 24G，模型本身大小约 22G。训练时，优化后 16G 可训练 Lora 模型，DB 方式训练微调模型除显存最低 24G 外，内存需 32G 以上。

AIモデルによって生成されたコンテンツであり、慎重に確認してください（提供元: aily）

参照

结合ComfyUI的生图原理，这张图展示了扩散模型中的加噪和去噪过程。在ComfyUI的节点化界面中，每一步的操作都可以通过不同的模块来实现，用户可以控制潜在空间中的操作（如调度器和噪声的选择）、U-Net中的推理步骤（通过去噪模块实现）、以及条件输入（通过文本提示或图像引导）。[heading1]一、基础模型[content]ComfyUI使用预训练的扩散模型作为其核心,通常是Stable Diffusion模型。这些模型通过大量图像和文本对的训练,学会了将文本描述与视觉概念关联起来。其中包括SD1.5、SD2.0、SDXL、SD3、FLUX等模型。[heading1]二、文本编码[content]当用户输入文本提示时,ComfyUI首先使用CLIP(Contrastive Language-Image Pre-training)文本编码器将文本转换为向量表示。这个向量捕捉了文本的语义信息。

稳定扩散（Stable Diffusion）是如何运作的

如果您曾尝试在太暗的情况下拍照，而拍出的照片全是颗粒状，那么这种颗粒状就是图像中“噪点”的一个例子。我们使用Stable Diffusion来生成艺术作品，但它实际上在幕后所做的是“清理”图像！不过，它比手机图像编辑器中的噪点消除滑块复杂得多。它实际上了解世界的样子、了解书面语言，并利用这些来指导（噪点消除）过程。例如，想象一下，如果我给了下面左边的图像给一位熟练的平面艺术家，并告诉他们这是一幅以H.R。Giger（瑞士画家、雕塑家与布景师，《异形》中的外星生物就是他的作品）的风格描绘的外星人弹吉他的画。我打赌他们可以精心清理它，创造出像右图那样的东西。（这些是稳定扩散的实际图像！)艺术家会利用他们对Giger的艺术作品的了解，以及对世界的了解（例如吉他应该是什么样子以及如何弹奏）来做到这一点。稳定扩散本质上是在做同样的事情！[heading2]“推理步骤”[content]你熟悉大多数艺术生成工具中的“推理步骤”滑块吗？稳定扩散是逐步去除噪点的。这是一个运行25步的例子：外星吉他手的例子更有意义，因为你可以更清楚地看出它应该是什么样子的……但在上图中，起始图像看起来完全无法辨认！实际上，这个充满噪点的外星人例子其实是从过程的大约一半开始取的——它（最开始的图像）实际上也是从完全的噪点开始的！

工具教程：Flux

作者：郑敏轩/Mike/六耳@郑敏轩https://space.bilibili.com/3461579519560151?spm_id_from=333.999.0.0[heading2]Flux制作团队由来：[content]Flux模型团队制作者：原stable diffusion核心团队因开源理念不合，出来成立“黑森林”团队。黑森林获3200万美元投资，拿出第一款产品：Flux[heading2]首次一次发布三种型号：[content]拿出来时有三种型号：Flux pro（最好的，闭源使用)Flux dev（开源，供学习研究使用，不支持商用）Flux schnell（开源，开源最彻底，支持商用）[heading2]参数量比较：[content]Flux的参数训练量达到了12B，且语言支持自然语言。12B我们类比一下8月6日的智谱发布的开源视频模型CogVideoX-2B，开源的是2B的一个模型，所以模型的视频推理结果不如快手的可灵。8月28日智谱最新开源了5B的视频模型。视频还在5B，由此可见图像12B确实是一个高度（开源里面）所以Flux一出现就占据极重要影响。Flux：训练参数12B（120亿）SD3 Large：训练参数8B（80亿）SD3 Medium：训练参数2B（20亿）[heading2]硬件要求变高：[content]由参数带来的，是硬件要求变高，推理dev版本的Flux模型时，最低显存需要16G，建议24G，模型本身大小是22多G，如果训练的话，经过优化目前16G也可以训练Lora模型，但是DB方式训练微调模型的话，除显存最低要24G外，要求内存也需要32G以上才行。