Latents_草庐IT

论文学习——Video LDM (Align your Latents)

AlignyourLatents:High-ResolutionVideoSynthesiswithLatentDiffusionModels0.来源本文是阅读论文后的个人笔记，适应于个人水平，叙述顺序和细节详略与原论文不尽相同，并不是翻译原论文。如果想了解所有细节，建议移步arxiv。论文地址：https://arxiv.org/abs/2304.08818项目地址：https://research.nvidia.com/labs/toronto-ai/VideoLDM/1.整体结构本文基于图像生成领域的典型框架LDM，扩展到视频生成领域，且保留了其以低计算成本，在压缩后的低维潜空间内生成高

论文笔记：DALL-E2：Hierarchical Text-ConditionalImage Generation with CLIP Latents详解

论文:https://cdn.openai.com/papers/dall-e-2.pdf代码：https://github.com/lucidrains/DALLE2-pytorch摘要像CLIP这样的对比模型已经被证明可以学习稳健的图像表征，这些特征可以捕捉到语义和风格。为了利用这些表征来生成图像，我们提出了一个两阶段的模型：一个给定文本标题生成CLIP图像embedding的先验器，以及一个以图像embedding为条件生成图像的解码器。我们表明，明确地生成图像表征提高了图像的多样性，在逼真度和标题的相似度方面损失最小。我们以图像表征为条件的解码器也能产生图像的变化，保留其语义和风格，同

Text-ConditionalImage ConditionalImage xff0c xff xff0 计算机视觉深度学习人工智能自然语言处理

DALLE·2（Hierarchical Text-Conditional Image Generation with CLIP Latents）

目录1.标题解读2.前言3.摘要部分4.引言部分 5.生成模型概述6.扩散模型的发展7.方法部分1.标题解读HierarchicalText-ConditionalImageGenerationwithCLIPLatents是一种层级式的基于CLIP特征的根据文本生成图像模型。层级式的意思是说在图像生成时，先生成64*64再生成256*256，最终生成令人叹为观止的1024*1024的高清大图。DALLE·2模型根据CLIP的文本特征和图像特征最终生成图像，可以看做CLIP的反向过程，因此DALLE·2被作者称为unCLIP2.前言022OpenAI提出DALLE2，根据文本描述生成原创性的、

Text-Conditional Hierarchical xff0c xff xff0 计算机视觉深度学习人工智能

DALLE·2（Hierarchical Text-Conditional Image Generation with CLIP Latents）

目录1.标题解读2.前言3.摘要部分4.引言部分 5.生成模型概述6.扩散模型的发展7.方法部分1.标题解读HierarchicalText-ConditionalImageGenerationwithCLIPLatents是一种层级式的基于CLIP特征的根据文本生成图像模型。层级式的意思是说在图像生成时，先生成64*64再生成256*256，最终生成令人叹为观止的1024*1024的高清大图。DALLE·2模型根据CLIP的文本特征和图像特征最终生成图像，可以看做CLIP的反向过程，因此DALLE·2被作者称为unCLIP2.前言022OpenAI提出DALLE2，根据文本描述生成原创性的、

Text-Conditional Hierarchical xff0c xff xff0 计算机视觉深度学习人工智能

《Hierarchical Text-Conditional Image Generation with CLIP Latents》阅读笔记

概括模型总述本篇论文主要介绍DALL·E2模型，它是OpenAI在2022年4月推出的一款模型，OpenAI在2021年1月推出了DALL·E模型，2021年年底推出了GLIDE模型。DALL·E2可以根据文本描述去生成原创性的、真实的图像，这些图像从来没有在训练集里出现过，模型真的学习到了文本图像特征，可以任意地组合其概念、属性、风格。DALL·E2除了根据文本生成图像，还能根据文本对已有的图像进行编辑和修改——可以任意添加或者移除图像里的物体，修改时甚至可以把阴影、光线和物体纹理都考虑在内。DALL·E2可以在没有文本输入的情况下，做一些图像生成的工作——比如给定一张图像，它可以根据已有的

Text-Conditional Hierarchical 的训练 3038153 人工智能

《Hierarchical Text-Conditional Image Generation with CLIP Latents》阅读笔记

概括模型总述本篇论文主要介绍DALL·E2模型，它是OpenAI在2022年4月推出的一款模型，OpenAI在2021年1月推出了DALL·E模型，2021年年底推出了GLIDE模型。DALL·E2可以根据文本描述去生成原创性的、真实的图像，这些图像从来没有在训练集里出现过，模型真的学习到了文本图像特征，可以任意地组合其概念、属性、风格。DALL·E2除了根据文本生成图像，还能根据文本对已有的图像进行编辑和修改——可以任意添加或者移除图像里的物体，修改时甚至可以把阴影、光线和物体纹理都考虑在内。DALL·E2可以在没有文本输入的情况下，做一些图像生成的工作——比如给定一张图像，它可以根据已有的

Text-Conditional Hierarchical 的训练 3038153 人工智能