草庐IT

transformer_weights

全部标签

权值衰减weight decay的理解

1.介绍权值衰减weightdecay即L2正则化,目的是通过在Loss函数后加一个正则化项,通过使权重减小的方式,一定减少模型过拟合的问题。L1正则化:即对权重矩阵的每个元素绝对值求和,λ∗∣∣W∣∣λ*||W||λ∗∣∣W∣∣L2正则化:即对权重矩阵的每个元素求平方和(先平方,后求和):1/2∗λ∗∣∣W∣∣21/2*λ*||W||^21/2∗λ∗∣∣W∣∣2注意:正则化项不需要求平均数,因为权重矩阵和样本数量无关,只是为了限制权重规模。L1损失函数:最小化绝对误差,因此L1损失对异常点有较好的适应更鲁棒,不可导,有多解,解的稳定性不好。关于L1损失函数的不连续的问题,可以通过平滑L1损失

Transformer:注意力机制(attention)和自注意力机制(self-attention)的学习总结

目录前言1.注意力机制1.1非自主提示和自主提示1.2查询,键和值1.3注意力机制的公式1.3.1平均汇聚1.3.2非参数的注意力汇聚(Nadaraya-Watson核回归)1.3.3带参数的注意力汇聚(Nadaraya-Watson核回归)1.4注意力机制的评分函数(a(query,key)a(query,key)a(query,key))1.4.1加性注意力1.4.2点积注意力1.5多头注意力(multi-head)2.自注意力机制2.1优缺点2.2单一自注意力机制图片示例2.3多头自注意力机制图片示例总结前言由于我对注意力机制和自注意力机制的原理和区别不是很清楚。因此,对相关内容进行了深

Transformer:注意力机制(attention)和自注意力机制(self-attention)的学习总结

目录前言1.注意力机制1.1非自主提示和自主提示1.2查询,键和值1.3注意力机制的公式1.3.1平均汇聚1.3.2非参数的注意力汇聚(Nadaraya-Watson核回归)1.3.3带参数的注意力汇聚(Nadaraya-Watson核回归)1.4注意力机制的评分函数(a(query,key)a(query,key)a(query,key))1.4.1加性注意力1.4.2点积注意力1.5多头注意力(multi-head)2.自注意力机制2.1优缺点2.2单一自注意力机制图片示例2.3多头自注意力机制图片示例总结前言由于我对注意力机制和自注意力机制的原理和区别不是很清楚。因此,对相关内容进行了深

透彻分析Transformer中的位置编码(positional enconding)

一、Transformer中为什么要使用位置编码positionalencoding在《AttentionIsAllYouNeed》这篇论文中首次提到了transformer模型,transformer模型在输入端用了一个位置编码(positionalencoding),其主要目的是增加相对位置信息,使其可以更好的利用每个元素相互之间的位置关系二、具体编码实现方式论文作者使用的是正余弦函数进行编码,这时可能会有人产生了疑惑,为什么要使用这么复杂的编码方式呢,这里举个例子,一句话“你好吗”用“1,0,0”、“0,1,0”、“0,0,1”的独热编码不可以么,编码方式还会更加的简单,为什么要用下图这

透彻分析Transformer中的位置编码(positional enconding)

一、Transformer中为什么要使用位置编码positionalencoding在《AttentionIsAllYouNeed》这篇论文中首次提到了transformer模型,transformer模型在输入端用了一个位置编码(positionalencoding),其主要目的是增加相对位置信息,使其可以更好的利用每个元素相互之间的位置关系二、具体编码实现方式论文作者使用的是正余弦函数进行编码,这时可能会有人产生了疑惑,为什么要使用这么复杂的编码方式呢,这里举个例子,一句话“你好吗”用“1,0,0”、“0,1,0”、“0,0,1”的独热编码不可以么,编码方式还会更加的简单,为什么要用下图这

[深度学习论文笔记]UNETR: Transformers for 3D Medical Image Segmentation

UNETR:Transformersfor3DMedicalImageSegmentationUNETR:用于三维医学图像分割的TransformerPublished:Oct2021Publishedin:IEEEWinterConferenceonApplicationsofComputerVision(WACV)2022论文:https://arxiv.org/abs/2103.10504代码:https://monai.io/research/unetr摘要:  过去十年以来,具有收缩路径和扩展路径(编码器和解码器)的全卷积神经网络(FCNNs)在各种医学图像分割应用中表现突出。在这些

[深度学习论文笔记]UNETR: Transformers for 3D Medical Image Segmentation

UNETR:Transformersfor3DMedicalImageSegmentationUNETR:用于三维医学图像分割的TransformerPublished:Oct2021Publishedin:IEEEWinterConferenceonApplicationsofComputerVision(WACV)2022论文:https://arxiv.org/abs/2103.10504代码:https://monai.io/research/unetr摘要:  过去十年以来,具有收缩路径和扩展路径(编码器和解码器)的全卷积神经网络(FCNNs)在各种医学图像分割应用中表现突出。在这些

带加权的贝叶斯自举法 Weighted Bayesian Bootstrap

在去年的文章中我们介绍过BayesianBootstrap,今天我们来说说WeightedBayesianBootstrapBayesianbootstrap贝叶斯自举法(Bayesianbootstrap)是一种统计学方法,用于在缺乏先验知识的情况下对一个参数的分布进行估计。这种方法是基于贝叶斯统计学的思想,它使用贝叶斯公式来计算参数的后验分布。在传统的非参数自举方法中,样本是从一个已知分布中抽取的,然后使用这些样本来估计这个分布的性质。然而,在实际问题中,我们通常无法获得这样的先验知识,因此需要使用其他方法来估计分布。贝叶斯自举法是一种替代方法,它不需要先验知识,而是从样本中抽取子样本,然

带加权的贝叶斯自举法 Weighted Bayesian Bootstrap

在去年的文章中我们介绍过BayesianBootstrap,今天我们来说说WeightedBayesianBootstrapBayesianbootstrap贝叶斯自举法(Bayesianbootstrap)是一种统计学方法,用于在缺乏先验知识的情况下对一个参数的分布进行估计。这种方法是基于贝叶斯统计学的思想,它使用贝叶斯公式来计算参数的后验分布。在传统的非参数自举方法中,样本是从一个已知分布中抽取的,然后使用这些样本来估计这个分布的性质。然而,在实际问题中,我们通常无法获得这样的先验知识,因此需要使用其他方法来估计分布。贝叶斯自举法是一种替代方法,它不需要先验知识,而是从样本中抽取子样本,然

【论文阅读】TranAD: Deep Transformer Networks for Anomaly Detection inMultivariate Time Series Data

 TranAD架构模型构建: ={𝑥1,...,𝑥𝑇},表示一个大小为T的带有时间戳的数据点序列,其中,𝑥𝑡满足特定的时间戳𝑡和𝑥t∈R𝑚,单变量设置是其中𝑚=1的特殊情况。异常检测:给定一个训练输入时间序列,对于长度为的任意时间的测试时间序列,并且与训练序列的模态相同的作为训练序列,我们需要预测Y={𝑦1,.,𝑦},其中𝑦t ∈{0,1}表示测试集下第t个时间戳的数据点是否异常(1表示异常数据点)。异常诊断:基于上述训练和测试时间序列,我们需要预测Y={𝑦1,.,𝑦} 数据预处理:时序数据分析:long-termtrends、locality(short-termtrends)对数据进行了标