Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

sd模型

Answer

Stable Diffusion(SD)模型是由 Stability AI 和 LAION 等公司共同开发的生成式模型,参数量约 1B,可用于文生图、图生图、图像 inpainting、ControlNet 控制生成、图像超分等任务。

文生图任务是将一段文本输入到 SD 模型中,经过一定迭代次数生成符合文本描述的图片。例如输入“天堂,巨大的,海滩”,模型生成美丽沙滩的图片。

图生图任务在输入文本基础上再输入一张图片,模型根据文本提示将输入图片重绘以更符合文本描述。比如在之前生成的沙滩图片上添加“海盗船”。

输入的文本信息需通过“桥梁”CLIP Text Encoder 模型转换为机器数学信息。该模型作为 SD 模型中的前置模块,将输入文本信息编码,生成 Text Embeddings 特征矩阵,用于控制图像生成。

CLIP 模型包含 Text Encoder 和 Image Encoder 两个模型,在 Stable Diffusion 中主要使用 Text Encoder 模型。它将输入的文本 Prompt 编码转换成 Text Embeddings(文本的语义信息),通过 U-Net 网络中的 CrossAttention 模块嵌入 Stable Diffusion 中作为 Condition,对生成图像的内容进行控制与引导。目前 SD 模型使用的是[CLIP ViT-L/14]中的 Text Encoder 模型。

CLIP ViT-L/14 中的 Text Encoder 是只包含 Transformer 结构的模型,由 12 个 CLIPEncoderLayer 模块组成,模型参数大小是 123M,输出的 Text Embeddings 维度为 77x768。

以下是相关资源获取方式:

  • SD 模型权重百度云网盘:关注 Rocky 的公众号 WeThinkIn,后台回复:SD 模型,即可获得包含多种模型权重的资源链接。
  • SD 保姆级训练资源百度云网盘:关注 Rocky 的公众号 WeThinkIn,后台回复:SD-Train,即可获得包含数据处理、模型微调训练及基于 SD 的 LoRA 模型训练代码等全套资源。
  • Stable Diffusion 中 VAE,U-Net 和 CLIP 三大模型的可视化网络结构图下载:关注 Rocky 的公众号 WeThinkIn,后台回复:SD 网络结构,即可获得网络结构图资源链接。
Content generated by AI large model, please carefully verify (powered by aily)

References

教程:深入浅出完整解析Stable Diffusion(SD)核心基础知识 - 知乎

Stable Diffusion(SD)模型是由Stability AI和LAION等公司共同开发的生成式模型,总共有1B左右的参数量,可以用于文生图,图生图,图像inpainting,ControlNet控制生成,图像超分等丰富的任务,本节中我们以文生图(txt2img)和图生图(img2img)任务展开对Stable Diffusion模型的工作流程进行通俗的讲解。文生图任务是指将一段文本输入到SD模型中,经过一定的迭代次数,SD模型输出一张符合输入文本描述的图片。比如下图中输入了“天堂,巨大的,海滩”,于是SD模型生成了一个美丽沙滩的图片。SD模型的文生图(txt2img)过程而图生图任务在输入本文的基础上,再输入一张图片,SD模型将根据文本的提示,将输入图片进行重绘以更加符合文本的描述。比如下图中,SD模型将“海盗船”添加在之前生成的那个美丽的沙滩图片上。SD模型的图生图(img2img)过程那么输入的文本信息如何成为SD模型能够理解的机器数学信息呢?很简单,我们需要给SD模型一个文本信息与机器数据信息之间互相转换的“桥梁”——CLIP Text Encoder模型。如下图所示,我们使用CLIP Text Encoder模型作为SD模型中的前置模块,将输入的文本信息进行编码,生成与文本信息对应的Text Embeddings特征矩阵,再将Text Embeddings用于SD模型中来控制图像的生成:蓝色框就是CLIP Text Encoder模型,能够将输入文本信息进行编码,输出SD能够理解的特征矩阵

教程:深入浅出完整解析Stable Diffusion(SD)核心基础知识 - 知乎

上面我们讲到CLIP模型主要包含Text Encoder和Image Encoder两个模型,在Stable Diffusion中主要使用了Text Encoder模型。CLIP Text Encoder模型将输入的文本Prompt进行编码,转换成Text Embeddings(文本的语义信息),通过前面一章节提到的U-Net网络中的CrossAttention模块嵌入Stable Diffusion中作为Condition,对生成图像的内容进行一定程度上的控制与引导,目前SD模型使用的的是[CLIP ViT-L/14](https://link.zhihu.com/?target=https%3A//huggingface.co/openai/clip-vit-large-patch14)中的Text Encoder模型。CLIP ViT-L/14中的Text Encoder是只包含Transformer结构的模型,一共由12个CLIPEncoderLayer模块组成,模型参数大小是123M,具体CLIP Text Encoder模型结构如下图所示。其中特征维度为768,token数量是77,所以输出的Text Embeddings的维度为77x768。下图是Rocky梳理的Stable Diffusion CLIP Encoder的完整结构图,大家可以感受一下其魅力,看着这个完整结构图学习Stable Diffusion CLIP Encoder部分,相信大家脑海中的思路也会更加清晰:下面Rocky将使用transofmers库演示调用CLIP Text Encoder,给大家一个更加直观的SD模型的文本编码全过程:

教程:深入浅出完整解析Stable Diffusion(SD)核心基础知识 - 知乎

SD模型权重百度云网盘:关注Rocky的公众号WeThinkIn,后台回复:SD模型,即可获得资源链接,包含Stable Diffusion 1.4模型权重、Stable Diffusion 1.5模型权重、Stable Diffusion I npainting模型权重、Stable Diffusion 2 base(512x512)模型权重、Stable Diffusion 2(768x768)模型权重、Stable Diffusion 2 Inpainting模型权重、Stable Diffusion 2.1 base(512x512)模型权重、Stable Diffusion 2.1(768x768)模型权重、Stable Diffusion Turbo模型权重、S table Diffusion x4 Upscaler(超分)模型权重以及consistency-decoder模型权重。不同格式的模型权重比如safetensors格式、ckpt格式、diffusers格式、FP16精度格式、ONNX格式、flax/jax格式以及openvino格式等均已包含。SD保姆级训练资源百度云网盘:关注Rocky的公众号WeThinkIn,后台回复:SD-Train,即可获得资源链接,包含数据处理、SD模型微调训练以及基于SD的LoRA模型训练代码全套资源,帮助大家从0到1快速上手训练属于自己的SD AI绘画模型。更多SD训练资源使用教程,请看本文第六章内容。Stable Diffusion中VAE,U-Net和CLIP三大模型的可视化网络结构图下载:关注Rocky的公众号WeThinkIn,后台回复:SD网络结构,即可获得网络结构图资源链接。

Others are asking
sd教程
以下是关于 SD 的一些教程: 用 SD 做二维码: 好看的二维码欣赏:第一个就是 qrbtf。 最近新出了融合二维码教程。 方法原文地址:https://stablediffusionart.com/qrcode/ 相关帖子展示了使用 Stable Diffusion 创建的艺术二维码,是使用定制训练的 ControlNet 模型生成的,人们也想出了在无自定义模型情况下制作 QR 码的方法。 用 SD 做中文文字(持续更新中): 制作思路: 将中文字做成白底黑字,存成图片样式。 使用文生图的方式,使用大模型真实系,作者用的 realisticVisionV20_v20.safetensorsControlNet 预设置。 输入关键词,如奶油的英文单词,Cream+Cake(加强质感),反关键词:Easynegative(负能量),反复刷机,得到满意的效果即可。 同理可输出 C4D 模型,可自由贴图材质效果,3d,blender,oc rendering。 如果希望有景深效果,也可以打开 depth(增加阴影和质感)。 打开高清修复,分辨率联系 1024 以上,步数:2960。 参考视频教程:【“牛逼”的教程来了!一次学会 AI 二维码+艺术字+光影光效+创意 Logo 生成,绝对是 B 站最详细的 Stable Diffusion 特效设计流程教学!AI 绘画进阶应用哔哩哔哩】https://b23.tv/c33gTIQ SD 的各种实践教程: 线稿上色 Midjourney+Stable Diffusion:https://waytoagi.feishu.cn/wiki/AsbYwmfS6ikhr3kNsCocdPMEnUd 猫咪狗狗 lora:https://waytoagi.feishu.cn/wiki/JiQewVbOHi7tzakS23ecprxsnfg 字体设计机甲战士:https://waytoagi.feishu.cn/wiki/GUQ3w52elisr9ukIgkBc42UmnWd 做盲盒平面变 3D:https://waytoagi.feishu.cn/wiki/SCK8wV4PTiHQVKkvGRUcx0fcnTe MJ 出图 SD 放大:https://waytoagi.feishu.cn/wiki/E88nwOtk9ilRQskg3Qlc6ZHpnTf 七夕字体和图:https://waytoagi.feishu.cn/wiki/BjQ1wLRv0ivCLtk136VchSCqnpU 可爱毛粘字体:https://waytoagi.feishu.cn/wiki/NjhbwF1cTiQ5Xjkd3tNc1OWynZd
2025-04-08
绘画工具sd怎么使用?
以下是关于绘画工具 SD 的使用方法: 1. 生成超大图像: 若想用 SD 绘制超高分辨率图片(如 10000x768 的清明上河图),直接调分辨率不可行,会爆显存,正常尺寸设置最高到 2048。 先在 PS 中设置所需大尺寸画布,保存为 jpg 图片。 将图片放入 ControlNet 中,点击右下角箭头,将图片尺寸信息发送到生成设置。 填入正反向提示词,启用 Tiled Diffusion 插件,其中方案选择 Mixture of Diffusers,可防止接缝产生。 2. 提示词标签选择: 按顺序选择标签词,如女孩、白头发、蓝眼睛等。 选择画质和视角,如最好的质量、杰作、从人物角度往下看等。 选择艺术风格,如皮克斯动画、轮廓光。 填写负面提示词,点击选框结尾的“负面”。 模型选择“revAnimated”,调整尺寸后点击生图。 3. 真人转二次元及图生图: 使用【X/Y/Z plot】脚本做参数对比,设置 X 轴为提示词相关性(取值范围 130,每次增加 5),Y 轴为重绘幅度(取值范围 01,每次增加 0.2)。 提示词相关性在 6—11 中间为最佳,重绘幅度大小可控制生成图与原图相似度。 可使用绘图功能增加或修改元素,如增加红色眼镜、去掉衣服图案、更换头部或修改帽子部分等。
2025-04-01
sd 换脸
以下是关于 SD 换脸插件 Roop 的详细步骤: 1. 勾选包含 Python 和 C++包等相关项目,更改安装位置后点击右下角安装。安装时间较长,需耐心等待。 2. 安装好后,打开 SD 文件目录下的相关文件夹,在地址栏输入“cmd”并回车,在打开的 dos 界面粘贴“python m pip install insightface==0.7.3 user”代码,自动安装 insightface。若此阶段出错,建议下载最新的秋叶 4.2 整合包(6 月 23 号更新),在云盘后台回复【SD】可下载。 3. 安装完成后,重新打开启动器,后台会继续下载一些模型,全程要保证科学上网。 4. 选用真实系模型“realisticVisionV20”,关键词描述相关内容生成照片。 5. 启用 ROOP 插件,选择要替换的人物照片,面部修复选择“GFPGAN”,根据需求设置右边的参数数值和放大算法,点击生成。 6. 若生成的人脸像素偏低、模糊,可将图发送到“图生图”,开较小的重绘幅度,然后使用 controlnet 中的 tile 模型进行重绘。 此插件主要适用于真实人脸替换,对二次元人物作用不大。在使用时要谨慎,切勿触犯法律。若想要此插件,可添加公众号【白马与少年】,回复【SD】即可。推荐使用最新的秋叶整合包,出错概率最小,且科学上网很重要。
2025-03-19
你有内置sd吗
Stable Diffusion(SD)相关知识如下: SD 内置了 LyCORIS,使用 LoRA 模型较多,其与 LyCORIS 相比可调节范围更大。LoRA 和 LyCORIS 的后缀均为.safetensors,体积较主模型小,一般在 4M 300M 之间。管理模型时可进入 WebUl 目录下的 models/LoRA 目录,在 WebUl 中使用时,可在 LoRA 菜单中点击使用,也可直接使用 Prompt 调用。 SD 的安装:系统需为 Win10 或 Win11。Win 系统查看配置,包括查看电脑系统(在桌面上找到“我的电脑”,鼠标右键点击,点击“属性”,查看 Windows 规格)和查看电脑配置(需要满足电脑运行内存 8GB 以上、是英伟达(NVIDA)的显卡、显卡内存 4GB 以上。打开任务管理器:同时按下 ctrl + shift + esc,查看电脑运行内存和显卡内存)。配置达标可跳转至对应安装教程页,如 【SD】无需 Lora,一键换脸插件 Roop:勾选相关项目,确保包含 Python 和 C++包。更改安装位置,点击右下角安装。安装时间长需耐心等待。安装好后,打开 SD 文件目录下的相关文件夹,在地址栏输入“cmd”回车,在打开的 dos 界面粘贴“python m pip install insightface==0.7.3 user”安装 insightface。若此阶段出错,建议下载最新的秋叶 4.2 整合包(6 月 23 号更新),后台回复【SD】下载。安装完成后,重新打开启动器,后台会继续下载模型,需全程科学上网。Roop 插件主要适用于真实人脸替换,对二次元人物作用不大。选用真实系模型,设置相关参数后生成,若人脸像素偏低模糊,可发送到“图生图”进行重绘。
2025-03-06
sd的关键词可以用中文吗
在 Stable Diffusion 中,通常只能识别英语关键词。但不用担心,您可以直接使用翻译工具将中文关键词翻译成英语后输入。比如,若您想生成一个漂亮的小姐姐站在大街上,可以写成“1 girl, beautiful, standing, street”这样的形式。输入关键词时,常用一个个单词并用英文状态下的逗号隔开。不过,对于中文字体的处理,也有一些方法,如将中文字做成白底黑字存成图片样式,再使用文生图的方式等。在输入关键词时,还可以先写一些提升照片质量的词语,使生成的照片更加精致。
2025-03-06
中文可以用sd吗
中文可以使用 Stable Diffusion(SD)。以下是使用 SD 制作中文文字的一些方法和步骤: 1. 将中文字做成白底黑字,存成图片样式。 2. 使用文生图的方式,使用大模型真实系,作者用的 realisticVisionV20_v20.safetensorsControlNet 预设置。 3. 输入关键词,如奶油的英文单词“Cream+Cake”(加强质感),反关键词:“Easynegative”(负能量),反复刷机,得到满意的效果即可。 4. 同理可输出 C4D 模型,可自由贴图材质效果,如“3d,blender,oc rendering”。 5. 如果希望有景深效果,也可以打开“depth”(增加阴影和质感)。 6. 打开高清修复,分辨率联系 1024 以上,步数:29 60。 SD 是 Stable Diffusion 的简称,是由初创公司 StabilityAI、CompVis 与 Runway 合作开发,2022 年发布的深度学习文本到图像生成模型。它主要用于根据文本的描述产生详细图像,是一种扩散模型(diffusion model)的变体,叫做“潜在扩散模型”(latent diffusion model;LDM)。其代码模型权重已公开发布,可以在大多数配备有适度 GPU 的电脑硬件上运行。当前版本为 2.1 稳定版(2022.12.7),源代码库:github.com/StabilityAI/stablediffusion 。
2025-03-06
大模型的系统提示词
大模型的系统提示词主要包括以下方面: 1. 在“五津:一键生成‘摸鱼打工猫’视频”中,针对用户选择的主题和回答,总结用户的创作意图,如“打工猫摸鱼的 2 小时,在巴厘岛能看一场日落”,并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词,以数组形式输出到“tishici”,将用户意图输出到“biaoti”。 2. 在“云中江树:智能对决:提示词攻防中的 AI 安全博弈”中,系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意;模型侧对于有能力的厂商应增强安全性并平衡性能,开发者则要在开发中带着安全意识优化系统提示词,加入安全引导和禁止内容等;输出侧可使用传统防御和内容过滤手段,并针对大模型特点进行私有数据泄露等检查。此外,还提到间接注入和提示词泄露的情况,间接注入常发生在应用获取依赖外部数据资源时,攻击者通过隐藏恶意指令完成攻击;提示词泄露指试图操纵模型输出获取部分或全部系统提示词,大模型输出内容可分为系统提示词、用户提示和助手提示词三段,通过攻击手段可获取系统提示词。
2025-04-18
通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash,这3个视觉理解大模型哪个最厉害?
以下是对通义千问 Qwen2.5VL 模型的介绍: 版本:有 3B、7B 和 72B 三个尺寸版本。 主要优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai 然而,对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型,目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容,因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看,其在视觉理解方面具有较强的能力和优势。
2025-04-15
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
目前全世界最厉害的视频视觉理解大模型是哪个
目前全世界较为厉害的视频视觉理解大模型有以下几个: 1. 昆仑万维的 SkyReelsV1:不仅支持文生视频、图生视频,是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元:语义理解能力出色,能精准还原复杂的场景和动作,如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5:全球最快的 AI 视频生成模型,Turbo 模式下可在 10 秒内生成视频,最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能,具备顶尖动漫生成能力。
2025-04-15
目前全世界最厉害的视觉理解大模型是哪个
目前在视觉理解大模型方面,较为突出的有 DeepSeek 的 JanusPro 模型,它将图像理解和生成统一在一个模型中;还有通义千问的视觉理解模型,其价格有较大降幅。此外,Pixverse V3.5 是全球最快的 AI 视频生成模型,在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型,因为这取决于不同的评估标准和应用场景。
2025-04-15
大模型对话产品的优劣
大模型对话产品具有以下优点: 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验,具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接,产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务,适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景,如私有领域知识问答、个性化聊天机器人、智能助手等。 大模型对话产品也存在一些缺点: 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情,全靠用户脑补,导致用户上头期短,疲劳度高,长期留存低。 3. 无法回答私有领域问题(如公司制度、人员信息等)。 4. 无法及时获取最新信息(如实时天气、比赛结果等)。 5. 无法准确回答专业问题(如复杂数学计算、图像生成等)。
2025-04-14