草庐IT

CNN-Transformer

全部标签

ChatGPT基础组件Transformer的代码实现(纯净版Transformer实现)

    最近ChatGPT大火,其实去年11月份就备受关注了,最近火出圈了,还是这家伙太恐怖了,未来重复性的工作很危险。回归主题,ChatGPT就是由无数个(具体也不知道多少个,哈哈哈哈)Transformer语言模型组成,Transformer最开始在2017年提出,目的是解决序列数据的训练,大多数应用到了语言相关,最近在图像领域也很有作为,属于是多点开花了。今天来简单看看他的实现吧。目录一、Transformer原理二、代码实现三、通俗解释如何使用Transformer 四、总结一、Transformer原理    说实话,介绍这个东西优点太伤神了,我想把有限的时间浪费在有意义的事情上,不

ChatGPT基础组件Transformer的代码实现(纯净版Transformer实现)

    最近ChatGPT大火,其实去年11月份就备受关注了,最近火出圈了,还是这家伙太恐怖了,未来重复性的工作很危险。回归主题,ChatGPT就是由无数个(具体也不知道多少个,哈哈哈哈)Transformer语言模型组成,Transformer最开始在2017年提出,目的是解决序列数据的训练,大多数应用到了语言相关,最近在图像领域也很有作为,属于是多点开花了。今天来简单看看他的实现吧。目录一、Transformer原理二、代码实现三、通俗解释如何使用Transformer 四、总结一、Transformer原理    说实话,介绍这个东西优点太伤神了,我想把有限的时间浪费在有意义的事情上,不

CNN中的底层、高层特征、上下文信息、多尺度

一、CNN中的底层、高层特征:简短总结:分类要求特征有较多的高级信息,回归(定位)要求特征包含更多的细节信息1)图像的低层特征(对定位任务帮助大,我们可以想想比如轮廓信息都不准那怎么去良好定位):图像底层特征指的是:轮廓、边缘、颜色、纹理、棱角和形状特征。边缘和轮廓能反映图像内容;如果能对边缘和关键点进行可靠提取的话,很多视觉问题就基本上得到了解决。图像的低层的特征语义信息比较少,但越浅的层特征越细节(低级)且特征图分辨率大,所以位置信息很充足,目标位置准确。再从另一个方面讲,越浅层的特征感受野越小(每个像素点映射回原图的覆盖面积小),故用浅层特征图检测大目标时就有点像瞎子摸象的感觉效果并不好

CNN中的底层、高层特征、上下文信息、多尺度

一、CNN中的底层、高层特征:简短总结:分类要求特征有较多的高级信息,回归(定位)要求特征包含更多的细节信息1)图像的低层特征(对定位任务帮助大,我们可以想想比如轮廓信息都不准那怎么去良好定位):图像底层特征指的是:轮廓、边缘、颜色、纹理、棱角和形状特征。边缘和轮廓能反映图像内容;如果能对边缘和关键点进行可靠提取的话,很多视觉问题就基本上得到了解决。图像的低层的特征语义信息比较少,但越浅的层特征越细节(低级)且特征图分辨率大,所以位置信息很充足,目标位置准确。再从另一个方面讲,越浅层的特征感受野越小(每个像素点映射回原图的覆盖面积小),故用浅层特征图检测大目标时就有点像瞎子摸象的感觉效果并不好

Mask R-CNN讲解

文章目录一:MaskR-CNN的横空出世二:网络架构【Backbone】【RPN】【ProposalLayer】【DetectionTargetLayer】【ROIAlign】【bbox检测】【Mask分割】三:损失函数四:测试过程五:总结一:MaskR-CNN的横空出世MaskR-CNN是何凯明大神的新作。MaskR-CNN是一种在有效检测目标的同时输出高质量的实例分割mask。是对fasterr-cnn的扩展,与bbox检测并行的增加一个预测分割mask的分支。MaskR-CNN可以应用到人体姿势识别。并且在实例分割、目标检测、人体关键点检测三个任务都取得了现在最好的效果,下图是MaskR

Mask R-CNN讲解

文章目录一:MaskR-CNN的横空出世二:网络架构【Backbone】【RPN】【ProposalLayer】【DetectionTargetLayer】【ROIAlign】【bbox检测】【Mask分割】三:损失函数四:测试过程五:总结一:MaskR-CNN的横空出世MaskR-CNN是何凯明大神的新作。MaskR-CNN是一种在有效检测目标的同时输出高质量的实例分割mask。是对fasterr-cnn的扩展,与bbox检测并行的增加一个预测分割mask的分支。MaskR-CNN可以应用到人体姿势识别。并且在实例分割、目标检测、人体关键点检测三个任务都取得了现在最好的效果,下图是MaskR

ViT: Vision transformer的cls token作用?

知乎:VisionTransformer超详细解读(原理分析+代码解读) CSDN:vit中的cls_token与position_embed理解CSDN:ViT为何引入cls_tokenCSDN:ViT中特殊classtoken的一些问题Vision Transformer在一些任务上超越了CNN,得益于全局信息的聚合。在ViT论文中,作者引入了一个classtoken作为分类特征。如果没有cls_token,我们使用哪个patchtoken做分类呢?根据自注意机制,每个patchtoken一定程度上聚合了全局信息,但是主要是自身特征。ViT论文还使用了所有token取平均的方式,这意味每个

ViT: Vision transformer的cls token作用?

知乎:VisionTransformer超详细解读(原理分析+代码解读) CSDN:vit中的cls_token与position_embed理解CSDN:ViT为何引入cls_tokenCSDN:ViT中特殊classtoken的一些问题Vision Transformer在一些任务上超越了CNN,得益于全局信息的聚合。在ViT论文中,作者引入了一个classtoken作为分类特征。如果没有cls_token,我们使用哪个patchtoken做分类呢?根据自注意机制,每个patchtoken一定程度上聚合了全局信息,但是主要是自身特征。ViT论文还使用了所有token取平均的方式,这意味每个

Transformer:注意力机制(attention)和自注意力机制(self-attention)的学习总结

目录前言1.注意力机制1.1非自主提示和自主提示1.2查询,键和值1.3注意力机制的公式1.3.1平均汇聚1.3.2非参数的注意力汇聚(Nadaraya-Watson核回归)1.3.3带参数的注意力汇聚(Nadaraya-Watson核回归)1.4注意力机制的评分函数(a(query,key)a(query,key)a(query,key))1.4.1加性注意力1.4.2点积注意力1.5多头注意力(multi-head)2.自注意力机制2.1优缺点2.2单一自注意力机制图片示例2.3多头自注意力机制图片示例总结前言由于我对注意力机制和自注意力机制的原理和区别不是很清楚。因此,对相关内容进行了深

Transformer:注意力机制(attention)和自注意力机制(self-attention)的学习总结

目录前言1.注意力机制1.1非自主提示和自主提示1.2查询,键和值1.3注意力机制的公式1.3.1平均汇聚1.3.2非参数的注意力汇聚(Nadaraya-Watson核回归)1.3.3带参数的注意力汇聚(Nadaraya-Watson核回归)1.4注意力机制的评分函数(a(query,key)a(query,key)a(query,key))1.4.1加性注意力1.4.2点积注意力1.5多头注意力(multi-head)2.自注意力机制2.1优缺点2.2单一自注意力机制图片示例2.3多头自注意力机制图片示例总结前言由于我对注意力机制和自注意力机制的原理和区别不是很清楚。因此,对相关内容进行了深