Difussion_草庐IT

U-ViT（CVPR2023）——ViT与Difussion Model的结合

扩散模型（DiffusionModel）最近在图像生成领域大火。而在扩散模型中，带有U-Net的卷积神经网络居于统治地位。U-ViT网络是将在图像领域热门的VisionTransformer结合U-Net，应用在了DiffisionModel中。本文将从VisionTransformer出发，分析U-ViT这篇CVPR2023的Paper并记录一些感想。Paper：AllareWorthWords:AViTBackboneforDiffusionModelsCode：https://github.com/baofff/U-ViT 一、VisionTransformer（ViT）

(二) AIGC—Stable Difussion （1）

1.前置知识目前通用的图像生成模型一般包含三个组件：TextEncoder根据文字生成向量生成模型根据向量和Noise生成缩小版本的图像ImageDecoder根据小分辨率图像生成大分辨率图像2.TextEncoder文字的Encoder对于结果的影响很大，增大DiffusionModel对结果的影响比较有限。FID:衡量一个图像好坏的一个标准,需要sample很多的Image进行标准衡量CLIP-Score:也是一个衡量标准，如下图，两个encoder生成出来的向量距离远近3.Decoder额外的Decoder不需要piar的资料，只需要图像就可以把Decoder训练出来Imagen用到就是