稳定扩散(Stable Diffusion)的运作原理如下:
在第一部分,我会给你一个高层次的解释(你可能已经熟悉了)。这是一个好的开始,但我知道这无法满足我的好奇心。?我会问,“好的,很棒,但是它是怎么做到的?”为了解答这个问题,我将展示一些稳定扩散的内部运作方式。内部的复杂程度可能超出了你的预期,但我至少想要更具体地向你展示其运作过程,这样它就不再是一个完全的谜了。更具体地说:稳定扩散是一个巨大的神经网络。神经网络是纯粹的数学。事实上,我们并不完全知道它在做什么!最终,稳定扩散之所以能工作,是因为我们训练了它。但让我们从全局视角开始吧!
你熟悉大多数艺术生成工具中的“推理步骤”滑块吗?稳定扩散是逐步去除噪点的。这是一个运行25步的例子:外星吉他手的例子更有意义,因为你可以更清楚地看出它应该是什么样子的……但在上图中,起始图像看起来完全无法辨认!实际上,这个充满噪点的外星人例子其实是从过程的大约一半开始取的——它(最开始的图像)实际上也是从完全的噪点开始的!
为了生成艺术,我们给稳定扩散提供了一个实际上只是纯噪点的初始图像。但是,相当残忍地?,我们撒谎说:“这是一幅超级充满噪点的H.R。Giger风格的外星人弹吉他的画——你能帮我清理一下吗?”如果你把这个任务交给一个平面艺术家,他们会束手无策——“我帮不了你,这个图像完全无法辨认!”那么稳定扩散是如何做到的呢?在最简单的层面上,答案是它是一个计算机程序,它别无选择,只能做它的事情并为我们生产一些东西。更深层次的答案与这样一个事实有关,即稳定扩散等AI模型(从技术上讲,“机器学习”模型)在很大程度上基于统计数据。它们估计所有选项的概率,即使所有选项的正确概率都极低,它们仍然只会选择概率最高的路径。例如,它对吉他可能出现在图像中的位置有一些理解,并且它可以寻找哪部分噪点最可能像是吉他边缘的部分(即使实际上没有“正确”的选择),然后开始填充物体。因为没有正确的答案,每次你给它一个不同的纯噪点图像,它都会创作出不同的艺术作品!