目录前言1.注意力机制1.1非自主提示和自主提示1.2查询,键和值1.3注意力机制的公式1.3.1平均汇聚1.3.2非参数的注意力汇聚(Nadaraya-Watson核回归)1.3.3带参数的注意力汇聚(Nadaraya-Watson核回归)1.4注意力机制的评分函数(a(query,key)a(query,key)a(query,key))1.4.1加性注意力1.4.2点积注意力1.5多头注意力(multi-head)2.自注意力机制2.1优缺点2.2单一自注意力机制图片示例2.3多头自注意力机制图片示例总结前言由于我对注意力机制和自注意力机制的原理和区别不是很清楚。因此,对相关内容进行了深
目录前言1.注意力机制1.1非自主提示和自主提示1.2查询,键和值1.3注意力机制的公式1.3.1平均汇聚1.3.2非参数的注意力汇聚(Nadaraya-Watson核回归)1.3.3带参数的注意力汇聚(Nadaraya-Watson核回归)1.4注意力机制的评分函数(a(query,key)a(query,key)a(query,key))1.4.1加性注意力1.4.2点积注意力1.5多头注意力(multi-head)2.自注意力机制2.1优缺点2.2单一自注意力机制图片示例2.3多头自注意力机制图片示例总结前言由于我对注意力机制和自注意力机制的原理和区别不是很清楚。因此,对相关内容进行了深
前面我们所讲的模型,输入都是一个向量,但有没有可能在某些场景中输入是多个向量,即一个向量集合,并且这些向量的数目并不是固定的呢?这一类的场景包括文字识别、语音识别、图网络等等。那么先来考虑输出的类型,如果对于输入是多个数目不定的向量,可以有以下这几种输出方式:每个向量对应一个输出:输出的数目与输入向量的数目一致,例如下图的词性识别、语调识别、状态识别等等:只有单个输出:这种应用于例如判断一段话的正负面作用、语音辨认说话者等等,如下图:机器自己决定输出多少个结果(seq2seq):如翻译、语音转文字等等。SequenceLabeling(输入输出数目一致)最简单的思路当然是将每一个向量单独作为一
前面我们所讲的模型,输入都是一个向量,但有没有可能在某些场景中输入是多个向量,即一个向量集合,并且这些向量的数目并不是固定的呢?这一类的场景包括文字识别、语音识别、图网络等等。那么先来考虑输出的类型,如果对于输入是多个数目不定的向量,可以有以下这几种输出方式:每个向量对应一个输出:输出的数目与输入向量的数目一致,例如下图的词性识别、语调识别、状态识别等等:只有单个输出:这种应用于例如判断一段话的正负面作用、语音辨认说话者等等,如下图:机器自己决定输出多少个结果(seq2seq):如翻译、语音转文字等等。SequenceLabeling(输入输出数目一致)最简单的思路当然是将每一个向量单独作为一
Self-Attention的基本结构与计算Attention(注意力)实际上就是权重的另一种应用的称呼,其具体结构与初始输入的content\(\vec{x_{1}},\vec{x_{2}},\cdots,\vec{x_{n}}\in\mathcal{X}\)紧密相关。其中,\(\vec{x_{1}},\vec{x_{2}},\cdots,\vec{x_{n}}\)为维度相同(设为\(d\),即\(\vec{x_{i}}\in\mathbb{R}^{d}\)for\(\forall1\leqi\leqn\))的向量。所谓wordembedding,实质是用低维的向量表示物体,但是,表示时需要
Self-Attention的基本结构与计算Attention(注意力)实际上就是权重的另一种应用的称呼,其具体结构与初始输入的content\(\vec{x_{1}},\vec{x_{2}},\cdots,\vec{x_{n}}\in\mathcal{X}\)紧密相关。其中,\(\vec{x_{1}},\vec{x_{2}},\cdots,\vec{x_{n}}\)为维度相同(设为\(d\),即\(\vec{x_{i}}\in\mathbb{R}^{d}\)for\(\forall1\leqi\leqn\))的向量。所谓wordembedding,实质是用低维的向量表示物体,但是,表示时需要
目录Seq2Seq+AttentionAttention的原理方法一(Usedintheoriginalpaper)方法二(morepopular,thesametoTransformer)SummarySelfAttentionSimpleRNN与Attention当前状态计算对比ReferenceSeq2Seq+AttentionSeq2Seq模型,有一个Encoder和一个Decoder,默认认为Encoder的输出状态h_m包含整个句子的信息,作为Decoder的输入状态s_0完成整个文本生成过程。这有一个严重的问题就是,最后的状态不能记住长序列,也就是会遗忘信息,那么Decoder也
目录Seq2Seq+AttentionAttention的原理方法一(Usedintheoriginalpaper)方法二(morepopular,thesametoTransformer)SummarySelfAttentionSimpleRNN与Attention当前状态计算对比ReferenceSeq2Seq+AttentionSeq2Seq模型,有一个Encoder和一个Decoder,默认认为Encoder的输出状态h_m包含整个句子的信息,作为Decoder的输入状态s_0完成整个文本生成过程。这有一个严重的问题就是,最后的状态不能记住长序列,也就是会遗忘信息,那么Decoder也
TwoExternalFactorsAffectingtheCarIndustryInthereviewofeventsaffectingthecarindustryin2021,“carbonneutrality”and“chipshortage”willstayonthelist.Tocounterclimatechange,Chinahassetgoalstoachievecarbonpeakingby2030andcarbonneutralityby2060.Meanwhile,carbonneutralityisnotonlypartoftheFive-yearPlansonNati
TwoExternalFactorsAffectingtheCarIndustryInthereviewofeventsaffectingthecarindustryin2021,“carbonneutrality”and“chipshortage”willstayonthelist.Tocounterclimatechange,Chinahassetgoalstoachievecarbonpeakingby2030andcarbonneutralityby2060.Meanwhile,carbonneutralityisnotonlypartoftheFive-yearPlansonNati