草庐IT

encodings

全部标签

Transformer 结构:位置编码 | Transformer Architecture: The Positional Encoding

注意:本文大多采用义译,确保原文意思不变,但不保证用词和原作完全一致。:sunglasses:使用正弦函数为模型添加位置信息Transformer是只基于自注意力机制的序列到序列架构。因为并行计算能力以及高性能。使得它在NLP领域中大受欢迎。现在常见的几个深度学习框架都实现了transformer,这让很多学生都能够方便使用到transformer。但是这也存在一个弊端,他会让我们忽略模型的一些细节。在本文中我,不打算研究它的整体结构,毕竟现在已经有很多优秀的文章介绍其结构了。在本文中我仅对transformer结构的一部分进行探讨,就是位置编码。当我阅读论文原文^[AttentionIsAl

进来学VAE,VAE都不懂还想懂扩散模型? | Variational Auto-Encoder

AE自编码器,无监督的特征学习,其目的是利用无标签数据找到一个有效低维的特征提取器。AE学习过程使用无监督,输入样本$x$通过编码器获得低维特征$z$,最后通过解码器重构输入数据获得$\hatx$,loss直接最小化$||x-\hatx||^2$即可实现无监督训练。学习完成之后,编码器可以作为监督学习的特征提取器,解码器就可以做图片生成器。在低维空间上非编码处进行解码可以生成新的不同于输入的样本。但是问题在于因为神经网络只是稀疏地记录下来你的输入样本和生成图像的一一对应关系,所以,如果介于某两个特征之间的某个点,编码器并没有学习到码空间里。因此无法实现码空间随机采样即可生成对应的图片,随机采样

进来学VAE,VAE都不懂还想懂扩散模型? | Variational Auto-Encoder

AE自编码器,无监督的特征学习,其目的是利用无标签数据找到一个有效低维的特征提取器。AE学习过程使用无监督,输入样本$x$通过编码器获得低维特征$z$,最后通过解码器重构输入数据获得$\hatx$,loss直接最小化$||x-\hatx||^2$即可实现无监督训练。学习完成之后,编码器可以作为监督学习的特征提取器,解码器就可以做图片生成器。在低维空间上非编码处进行解码可以生成新的不同于输入的样本。但是问题在于因为神经网络只是稀疏地记录下来你的输入样本和生成图像的一一对应关系,所以,如果介于某两个特征之间的某个点,编码器并没有学习到码空间里。因此无法实现码空间随机采样即可生成对应的图片,随机采样