AlignyourLatents:High-ResolutionVideoSynthesiswithLatentDiffusionModels0.来源本文是阅读论文后的个人笔记,适应于个人水平,叙述顺序和细节详略与原论文不尽相同,并不是翻译原论文。如果想了解所有细节,建议移步arxiv。论文地址:https://arxiv.org/abs/2304.08818项目地址:https://research.nvidia.com/labs/toronto-ai/VideoLDM/1.整体结构本文基于图像生成领域的典型框架LDM,扩展到视频生成领域,且保留了其以低计算成本,在压缩后的低维潜空间内生成高
论文:https://cdn.openai.com/papers/dall-e-2.pdf代码:https://github.com/lucidrains/DALLE2-pytorch摘要像CLIP这样的对比模型已经被证明可以学习稳健的图像表征,这些特征可以捕捉到语义和风格。为了利用这些表征来生成图像,我们提出了一个两阶段的模型:一个给定文本标题生成CLIP图像embedding的先验器,以及一个以图像embedding为条件生成图像的解码器。我们表明,明确地生成图像表征提高了图像的多样性,在逼真度和标题的相似度方面损失最小。我们以图像表征为条件的解码器也能产生图像的变化,保留其语义和风格,同
目录1.标题解读2.前言3.摘要部分4.引言部分 5.生成模型概述6.扩散模型的发展7.方法部分1.标题解读HierarchicalText-ConditionalImageGenerationwithCLIPLatents是一种层级式的基于CLIP特征的根据文本生成图像模型。层级式的意思是说在图像生成时,先生成64*64再生成256*256,最终生成令人叹为观止的1024*1024的高清大图。DALLE·2模型根据CLIP的文本特征和图像特征最终生成图像,可以看做CLIP的反向过程,因此DALLE·2被作者称为unCLIP2.前言022OpenAI提出DALLE2,根据文本描述生成原创性的、
目录1.标题解读2.前言3.摘要部分4.引言部分 5.生成模型概述6.扩散模型的发展7.方法部分1.标题解读HierarchicalText-ConditionalImageGenerationwithCLIPLatents是一种层级式的基于CLIP特征的根据文本生成图像模型。层级式的意思是说在图像生成时,先生成64*64再生成256*256,最终生成令人叹为观止的1024*1024的高清大图。DALLE·2模型根据CLIP的文本特征和图像特征最终生成图像,可以看做CLIP的反向过程,因此DALLE·2被作者称为unCLIP2.前言022OpenAI提出DALLE2,根据文本描述生成原创性的、
概括模型总述本篇论文主要介绍DALL·E2模型,它是OpenAI在2022年4月推出的一款模型,OpenAI在2021年1月推出了DALL·E模型,2021年年底推出了GLIDE模型。DALL·E2可以根据文本描述去生成原创性的、真实的图像,这些图像从来没有在训练集里出现过,模型真的学习到了文本图像特征,可以任意地组合其概念、属性、风格。DALL·E2除了根据文本生成图像,还能根据文本对已有的图像进行编辑和修改——可以任意添加或者移除图像里的物体,修改时甚至可以把阴影、光线和物体纹理都考虑在内。DALL·E2可以在没有文本输入的情况下,做一些图像生成的工作——比如给定一张图像,它可以根据已有的
概括模型总述本篇论文主要介绍DALL·E2模型,它是OpenAI在2022年4月推出的一款模型,OpenAI在2021年1月推出了DALL·E模型,2021年年底推出了GLIDE模型。DALL·E2可以根据文本描述去生成原创性的、真实的图像,这些图像从来没有在训练集里出现过,模型真的学习到了文本图像特征,可以任意地组合其概念、属性、风格。DALL·E2除了根据文本生成图像,还能根据文本对已有的图像进行编辑和修改——可以任意添加或者移除图像里的物体,修改时甚至可以把阴影、光线和物体纹理都考虑在内。DALL·E2可以在没有文本输入的情况下,做一些图像生成的工作——比如给定一张图像,它可以根据已有的