草庐IT

Difussion

全部标签

U-ViT(CVPR2023)——ViT与Difussion Model的结合

    扩散模型(DiffusionModel)最近在图像生成领域大火。而在扩散模型中,带有U-Net的卷积神经网络居于统治地位。U-ViT网络是将在图像领域热门的VisionTransformer结合U-Net,应用在了DiffisionModel中。本文将从VisionTransformer出发,分析U-ViT这篇CVPR2023的Paper并记录一些感想。Paper:AllareWorthWords:AViTBackboneforDiffusionModelsCode:https://github.com/baofff/U-ViT   一、VisionTransformer(ViT)  

(二) AIGC—Stable Difussion (1)

1.前置知识目前通用的图像生成模型一般包含三个组件:TextEncoder根据文字生成向量生成模型根据向量和Noise生成缩小版本的图像ImageDecoder根据小分辨率图像生成大分辨率图像2.TextEncoder文字的Encoder对于结果的影响很大,增大DiffusionModel对结果的影响比较有限。FID:衡量一个图像好坏的一个标准,需要sample很多的Image进行标准衡量CLIP-Score:也是一个衡量标准,如下图,两个encoder生成出来的向量距离远近3.Decoder额外的Decoder不需要piar的资料,只需要图像就可以把Decoder训练出来Imagen用到就是