1.前置知识目前通用的图像生成模型一般包含三个组件:TextEncoder根据文字生成向量生成模型根据向量和Noise生成缩小版本的图像ImageDecoder根据小分辨率图像生成大分辨率图像2.TextEncoder文字的Encoder对于结果的影响很大,增大DiffusionModel对结果的影响比较有限。FID:衡量一个图像好坏的一个标准,需要sample很多的Image进行标准衡量CLIP-Score:也是一个衡量标准,如下图,两个encoder生成出来的向量距离远近3.Decoder额外的Decoder不需要piar的资料,只需要图像就可以把Decoder训练出来Imagen用到就是