Dreambooth 是 Google 开发的一种系统,用于训练模型识别用户提交的主题,并将其应用到提示的上下文中(例如[用户]在艾菲尔铁塔下微笑)。其官方 Github 的 Readme 文档上有着非常详细的文字说明与视频教程,是学习 Dreambooth 炼丹的最佳资料之一,讲解了包括训练集训练轮数 Epochs、同时处理的图片数 Batch Size、学习率 Learning Rate 等核心超参数在内的各种参数设置与调整建议。
在相关教程中,对 Batching 批处理进行了研究,全文逾万字,主要探讨了训练集训练轮数 Epochs、同时进行训练的图像数 Batch size、学习率 Learning rate 等重要超参数。
此外,还有一些里程碑式的研究成果与 Dreambooth 相关,如:
Dreambooth 官方文档未解读完的部分将在下一篇文章更新,更多细节讨论也可以加入 Stable Diffusion 炼丹阁和道友们一起交流。
作者:设计师忠忠[Stable Diffusion炼丹阁](https://mp.weixin.qq.com/s/V8zru-yqkvWj3hndvfhQpw#)[.](https://mp.weixin.qq.com/s/V8zru-yqkvWj3hndvfhQpw#)[AIGC炼丹师聚集地,专注于将Stable Diffusion的图像生成与模型训练能力应用于落地工作。](https://mp.weixin.qq.com/s/V8zru-yqkvWj3hndvfhQpw#)原创设计师忠忠Stable Diffusion炼丹阁2023-04-09 18:16发表于广东原文链接地址:https://mp.weixin.qq.com/s/8ECZ5xaUF20AqMU3jb2Zqg[heading1]前言[content]Dreambooth官方Github的Readme文档上有着非常详细的文字说明与视频教程,是学习Dreambooth炼丹的最佳资料之一,讲解了包括训练集训练轮数Epochs、同时处理的图片数Batch Size、学习率Learning Rate等核心超参数在内的各种参数设置与调整建议。接下来我将结合自己的理解,靠着GPT4、NewBing的帮助和大家一起修炼这份炼丹术进阶教程,踏上这炼丹修仙长生之路!
全文到这里已逾万字,主要研究了训练集训练轮数Epochs、同时进行训练的图像数Batch size、学习率Learning rate等,这些都是训练中非常重要的超参数,值得我们认真研究。虽然认真研究参数是什么确实很占据篇幅哈哈,而且即使篇幅如此之长,却也才粗略提了下相关内容,更多细节还可以展开讨论很多,就放在后面的文章再与诸君畅谈吧哈哈。Dreambooth官方文档未解读完的部分将在下一篇文章更新,更多细节讨论也可以加入Stable Diffusion炼丹阁和道友们一起交流丹道奥秘,比如讨论药材的选取与火候的控制,成丹的评估方案等等~仙途漫漫,携手同行哈哈哈
[Learning transferable visual models from natural language supervision](https://arxiv.org/abs/2103.00020)(2021):这篇论文介绍了一种基础模型CLIP,将文本描述与图像联系起来。这是计算机视觉中首次有效的大规模使用基础模型。([博客文章](https://openai.com/research/clip))[Zero-shot text-to-image generation](https://arxiv.org/abs/2102.12092)(2021):这篇论文介绍了DALL-E,这是一种将上述的CLIP和GPT-3结合起来,根据文本提示自动生成图像的模型。它的后继者,DALL-E 2,在2022年引发了基于图像的生成式AI热潮。([博客文章](https://openai.com/research/dall-e))[High-resolution image synthesis with latent diffusion models](https://arxiv.org/abs/2112.10752)(2021):描述稳定扩散的论文(在发布和爆炸性开源增长之后)。[Photorealistic text-to-image diffusion models with deep language understanding](https://arxiv.org/abs/2205.11487)(2022年):Imagen是Google进入AI图像生成领域的尝试。尽管在宣布后的一年多时间里,该模型截止到本文发布日期仍未公开发布。([网站](https://imagen.research.google/))[DreamBooth:Fine tuning text-to-image diffusion models for subject-driven generation](https://arxiv.org/abs/2208.12242)(2022):DreamBooth是Google开发的一种系统,用于训练模型识别用户提交的主题,并将其应用到提示的上下文中(例如[用户]在艾菲尔铁塔下微笑)。([网站](https://dreambooth.github.io/))