stable diffusion原理

ChrisWy26 2023-04-03 原文

1、Latent space

隐空间是压缩数据的一个表示。数据压缩的目的是学习数据中较重要的信息。以编码器-解码器网络为例，首先使用全卷积神经网(FCN)络学习图片特征，我们将特征提取中对数据的降维看作一种有损压缩。但是由于解码器需要重建(reconstruct)数据，所以模型必须学习如何储存所有相关信息并且忽略噪音。所以压缩（降维）的好处在于可以去掉多余的信息从而关注于最关键的特征。

2、AutoEncoder 和 VAE

AutoEncoder:

(1)AE是一个预训练的自编码器，自编码器的目的是数据降维，其优化目标是通过编码器压缩数据，再通过解码器还原数据，使得输入输出的数据尽量相同

(2)理论上来说对于图像数据，解码器还原数据可以看做是一个生成器的功能，由于解码器的输入数据z属于R空间，输入z的分布无法被固定住，所以大部分生成的图片是无意义的。

VAE：

(1)给定输入解码器的z一个分布可以解决上述问题，假设一个服从标准多元高斯分布的多维随机变量的数据集X，通过根据已知分布采样得到的zi，来训练decoder神经网络，从而得到多元高斯分布的均值和方差，从而成功得到一个逼近真实分布p(X)的p’(X)

(2)求解p’(X|z)的概率分布

(3)通过极大似然估计，最大化p’(X)的概率，但由于xi的维度很大，zi的维度也很大，需要准确找到与xi分布相关的zi，需要大量的采样，因此需要在encoder中引入后验分布p’(z|xi)，让xi与zi关联起来

(4)利用encoder通过假设已知数据的分布，拟合其参数，从而逼近真实的后验分布p’(z|xi),在这里假设后验分布是基于多元高斯分布，则让encoder输出分布的均值和方差

(5)总体流程

相关资料:https://zhuanlan.zhihu.com/p/348498294

3、Diffusion扩散模型

前向过程：

结论：任意时刻的分布都可以通过X0初始状态，以及步数计算出来。

Xt时刻的分布等于t-1时刻的分布+随机高斯分布的噪音，其中α是噪音的衰减值

同理t-1时刻的分布

带入到Xt公式

化简得到

最终得到任意步T的分布可由X0初始状态得到

逆向过程:

已知Xt，求初始状态的X0，这里利用贝叶斯公式来预测X0

首先求一步，也就是已知Xt的分布求Xt-1时刻的分布，根据贝叶斯公式可得：

根据上面正向过程的公式，左式可求已知Xt-1时Xt的状态：

右侧分子分母在已知x0的状态，同样可以求出:

前向过程，也就是加噪的过程可以看做是不断构建标注的过程，在逆向过程中计算出去除噪音的分布，与前向过程中加的噪音计算损失

详细公式推导资料：由浅入深了解Diffusion Model - 知乎

4、多模态条件机制

Cross Attention:

(1)在transfomer中混入不同模态的两个序列，比如(图像、文本、声音)

(2)两个序列的维度必须相同

(3)一个序列作为输入的Q，另一个序列提供输入的K、V

在stable diffusion的应用

通过在Unet中间层引入cross attention，引入多模态的条件(文本，类别，layout，mask)，其中cross attention的实现如下，其中Q来自latent space，K、V来自文本等另一序列:

5、Stable Diffusion原理

训练过程：

(1)使用预训练的CLIP模型，对需要训练的图像数据生成对应的描述词语。

(2)使用预训练的通用VAE或自己训练的VAE模型。通过VAE模型，先用Encoder部分对原图片进行处理，将输入图片信息降维到latent space，通常的降采样倍数在4-16倍之间效果最好。在sd中应用到AutoEncoderKL 的VAE模型将图像压缩到latent space。

(3)将压缩后的数据输入diffusion model，先进行正向采样，既通过输入的原始信息，一步一步生成噪声信息，在这个过程中，通过一个权重参数控制每步生成噪声的强度，越往后的step生成的噪声更多，直到生成纯噪声，并记录每步生成噪声的数据，作为GT

(4)利用cross attention将latent space的特征与另一模态序列的特征融合，并添加到diffusion model的逆向过程，通过Unet逆向预测每一步需要减少的噪音，通过GT噪音与预测噪音的损失函数计算梯度。

(5)其中Denoising Unet的结构如下:

前向过程：

根据假定分布，一般是多元高斯分布，生成一张纯噪音图像
利用VAE encoder 压缩到latent space
执行Denoising Unet，利用cross attention融合多模态信息
预测每一步需要减去的噪音，直到step执行完毕
利用VAE decoder还原到同一分布下的原图大小

Finetune 自己的模型:

embedding：通过finetune clip text embedding 来补充词条与对应特征
Hypernetworks: 通过超网络来加速模型训练

有关stable diffusion原理的更多相关文章

【Unity游戏破解】外挂原理分析 - 2
文章目录认识unity打包目录结构游戏逆向流程Unity游戏攻击面可被攻击原因mono的打包建议方案锁血飞天无限金币攻击力翻倍以上统称内存挂透视自瞄压枪瞬移内购破解Unity游戏防御开发时注意数据安全接入第三方反作弊系统外挂检测思路狠人自爆实战查看目录结构用il2cppdumper例子2-森林whoishe后记认识unity打包目录结构dll一般很大，因为里面是所有的游戏功能编译成的二进制码游戏逆向流程开发人员代码被编译打包到GameAssembly.dll中使用il2ppDumper工具，并借助游戏名_Data\il2cpp_data\Metadata\global-metadata.dat
Slowloris DoS攻击的原理与简单实现 - 2
前言 Slowloris攻击是我在李华峰老师的书——《MetasploitWeb 渗透测试实战》里面看的，感觉既简单又使用，现在这种攻击是很容易被防护的啦。不过我也不敢真刀实战的去试，只是拿个靶机玩玩罢了。废话还是写在结语里面吧。（划掉）结语可以不看（划掉）Slowloris攻击的原理 Slowloris是一种资源消耗类DoS攻击，它利用部分HTTP请求进行操作。也叫做慢速攻击，这里的慢速并不是说发动攻击慢，而是访问一条链接的速度慢。Slowloris攻击的功能是打开与目标Web服务器的连接，然后尽可能长时间的保持这些连接打开。如果由多台电脑同时发起Slo
[蓝桥杯单片机]学习笔记——串口通信的基本原理与应用 - 2
目录一、原理部分1、什么是串行通信（1）并行通信与串行通信（2）串行通信的制式（3）串行通信的主要方式 2、配置串口（1）SCON和PCON：串行口1的控制寄存器（2）SBUF：串行口数据缓冲寄存器（3）AUXR：辅助寄存器编辑（4）ES、PS：与串行口1中断相关的寄存器（5）波特率设置 3、串口框架编写二、程序案例一、原理部分1、什么是串行通信（1）并行通信与串行通信微控制器与外部设备的数据通信，根据连线结构和传送方式的不同，可以分为两种：并行通信和串行通信。并行通信：数据的各位同时发送与接收，每个数据位使用一条导线，这种方式传输快，但是需要多条导线进行信号传输。串行通信：数据一位一
ruby - # Ruby 中识别方法约定的基本原理/历史是什么？ - 2
例如，我一直看到称为String#split的方法，但从未见过String.split，这似乎更合乎逻辑。或者甚至可能是String::split，因为您可以认为#split位于String的命名空间中。当假定/隐含类(#split)时，我什至单独看到了该方法。我知道这是ri中识别方法的方式。哪个先出现？例如，这是为了区分方法和字段吗？我还听说这有助于区分实例方法和类方法。但这从哪里开始呢？最佳答案不同之处在于您如何访问这些方法。类方法使用::分隔符来表示消息可以发送到类/模块对象，而实例方法使用#分隔符表示消息可以发送到实例对
H264压缩原理 - 2
1、为什么压缩的原始数据一般采用YUV格式（1）利用人对图片感觉的生理特性，对于亮度信息比较敏感，对于色度信息不太敏感，所以视频编码是将Y分量和UV分量分开来编码，并且可以减少UV分量.2、视频压缩原理（1）空间冗余：图像相邻像素之间的相关性，比如一帧图片被划分成多个16x16的块之后，相邻的块之间有很多明显的相似性。（2）时间冗余：时间相差较近的两张图片变化较小。（3）视觉冗余：我们的眼睛对某些细节不太敏感，对图像中的高频信息的敏感度小于低频信息，可以去除一些高频信息。（4）编码冗余：一幅图片中不同像素出现的概率是不同的，对于出现次数较多的像素，用少的位数来编码，对于出现次数较少的像素，用多
Python——程序的运行原理 - 2
Python程序运行原理Python是一种脚本语言，编辑完成的程序，也称源代码，可以直接运行。从计算机的角度看,Python程序的运行过程包含两个步骤:解释器将源代码翻译成字节码(即中间码),然后由虚拟机解释执行。Python程序文件的扩展名通常为.py。在执行时,首先由Python解释器将.py文件中的源代码翻译成中间码,这个中间码是一个扩展名为.pyc的文件,再由Python虚拟机(PythonVirtualMachine,PVM)逐条将中间码翻译成机器指令执行。需要说明的是,pyc文件保存在Python安装目录的pycache文件夹下,如果Python无法在用户的计算机上写人字节码,字节
mysql - Rails 数据库连接池的工作原理 - 2
我正在学习Rails数据库连接池概念。在Rails应用程序中，我将池大小定义为5。我对连接池大小的理解如下。当服务器启动时，rails会自动创建n个在database.yml文件中定义的连接。在我的例子中，它将创建5个连接，因为池大小为5。在每个http请求上，如果需要访问数据库，rails将使用连接池中的可用连接来处理请求。但我的问题是，如果我一次达到1000个请求，那么大部分请求将无法访问数据库连接，因为我的连接池大小只有5个。我上面对rails连接池的理解对吗？？谢谢，最佳答案目的:数据库连接不是线程安全的；所以Activ
ElasticSearch——刷盘原理流程 - 2
ElasticSearch——刷盘原理流程刷盘原理流程名词和操作解释相关设置刷盘原理流程整个过程会分成几步：数据会同时写入buffer缓冲区和translog日志文件buffer缓冲区满了或者到时间了（默认1s），就会将其中的数据转换成新的segment并写入系统文件缓存，这一步叫refresh其中后台会自动合并小的segment成大的segment；这一步叫段合并当translog达到大小的阈值(默认512M)或者flush默认时长（30m），则会执行flush操作：内存中数据写入新的segment放入缓存（清空内存区）一个commitpoint写入磁盘，表示哪些segment已写入磁盘将缓
ruby-on-rails - 了解 establish_connection 在 ActiveRecord 中的工作原理 - 2
此代码取自ActiveRecord2.3.14的gem类ConnectionHandlerdefestablish_connection(name,spec)@connection_pools[name]=ConnectionAdapters::ConnectionPool.new(spec)end似乎每次ruby在模型上调用establish_connection时，它都会创建一个新的连接池。我的问题:如果我有5个模型使用establish_connection连接到同一个数据库，Rails是否足够智能以选择一个已经存在的池而不是创建一个具有相同连接凭据的新池？如果我的5个模型是
51单片机（郭天祥版）——键盘检测原理及应用实现 - 2
实验中我们使用的是52单片机目录前言一、单片机是什么？二、实验步骤1.独立键盘检测1.2代码如下(示例)：1.3图片1.4视频2.矩阵键盘检测2.2代码如下（示例）：2.3图片2.4视频总结：以上就是今天要讲的内容，本文仅仅简单介绍了单片机键盘检测的应用实现，而单片机键盘检测相关理论可以参考教材进行学习前言文章内主要概念引自郭天祥老师《新概念51单片机C语言版》一书主要展示郭天祥老师书中第四章键盘检测原理及应用实现。分为仿真、实体两部分。一、单片机是什么？单片机就是在一块硅片上集成了微处理器、存储器及各种输入/输出接口的芯片，这样一块芯片就具有了计算机的属性，因而被成为单片微型计算机，简称单片