草庐IT

CNN-Transformer

全部标签

【人工智能】结合代码通俗讲解 Transformer 推理性能优化技术:KV Cache

目录0.引言1.KVCache是啥?2.背景3.原理4.实现细节5.总结在解码器推理加速的时候,由于解码过程是一个token一个token的生成,如果每一次解码都从输入开始拼接好解码的token,生成输入数据,然后预测下一个token,那么会有非常多的重复计算。为了解决这个问题,Transformers利用缓存

利用pytorch自定义CNN网络(四):损失函数和优化器

本文是利用pytorch自定义CNN网络系列的第四篇,主要介绍如何训练一个CNN网络,关于本系列的全文见这里。笔者的运行设备与软件:CPU(AMDRyzen™54600U)+pytorch(1.13,CPU版)+jupyter;训练模型是为了得到合适的参数权重,设计模型的训练时,最重要的就是损失函数和优化器的选择。损失函数(Lossfunction)是用于衡量模型所作出的预测离真实值(GroundTruth)之间的偏离程度,损失函数值越小,模型的鲁棒性越好。当损失函数值过大时,我们就需要借助优化器(Optimizer)对模型参数进行更新,使预测值和真实值的偏离程度减小。1.损失函数在机器学习中

多层多输入的CNN-LSTM时间序列回归预测(卷积神经网络-长短期记忆网络)——附代码

目录摘要:卷积神经网络(CNN)的介绍:长短期记忆网络(LSTM)的介绍:CNN-LSTM: Matlab代码运行结果:本文Matlab代码+数据分享: 摘要:本文使用CNN-LSTM混合神经网络对时间序列数据进行回归预测。本模型的输入数据个数可以自行选择,可以为多输入、也可以为单输入,使用Matlab自带的数据集进行训练,可以轻松的更换数据集以实现自己的功能。首先使用CNN网络对输入数据进行深度特征提取,然后将提取到的抽象特征进行压缩,将压缩后的数据输入后续的LSTM网络进行回归预测。相比一般的单层网络结构,本文所提出的CNN-LSTM包含了三层CNN和三层LSTM网络,因此本文网络预测的准

多层多输入的CNN-LSTM时间序列回归预测(卷积神经网络-长短期记忆网络)——附代码

目录摘要:卷积神经网络(CNN)的介绍:长短期记忆网络(LSTM)的介绍:CNN-LSTM: Matlab代码运行结果:本文Matlab代码+数据分享: 摘要:本文使用CNN-LSTM混合神经网络对时间序列数据进行回归预测。本模型的输入数据个数可以自行选择,可以为多输入、也可以为单输入,使用Matlab自带的数据集进行训练,可以轻松的更换数据集以实现自己的功能。首先使用CNN网络对输入数据进行深度特征提取,然后将提取到的抽象特征进行压缩,将压缩后的数据输入后续的LSTM网络进行回归预测。相比一般的单层网络结构,本文所提出的CNN-LSTM包含了三层CNN和三层LSTM网络,因此本文网络预测的准

利用pytorch自定义CNN网络(三):构建CNN模型

本文是利用pytorch自定义CNN网络系列的第三篇,主要介绍如何构建一个CNN网络,关于本系列的全文见这里。笔者的运行设备与软件:CPU(AMDRyzen™54600U)+pytorch(1.13,CPU版)+jupyter;本文所用到的资源:链接:https://pan.baidu.com/s/1WgW3IK40Xf_Zci7D_BVLRg提取码:12121.如何让构建一个CNN模型构建模型的过程就是对CNN原理的代码实现,我们已经了解到CNN内部包含有卷积层、池化层、全连接层等网络层,模型的构建就是对这些层的实现以及链接。CNN的模型的实现依赖pytorch中的torch.nn模块,而t

【人工智能与机器学习】基于卷积神经网络CNN的猫狗识别

文章目录1引言2卷积神经网络概述2.1卷积神经网络的背景介绍2.2CNN的网络结构2.2.1卷积层2.2.2激活函数2.2.3池化层2.2.4全连接层2.3CNN的训练过程图解2.4CNN的基本特征2.4.1局部感知(LocalConnectivity)2.4.2参数共享(ParameterSharing)3数据集介绍4猫狗识别(tensorflow)4.1搭建卷积神经网络模型4.2训练模型4.3识别预测结果5猫狗分类(keras基准模型)5.1构建网络模型5.2训练配置5.3模型训练5.4结果可视化6基准模型的调整6.1图像增强6.2添加一层dropout6.3训练模型总结1引言很巧,笔者在

Swin-Transformer 实战代码与讲解(快速上手)

Swin-Transformer学习笔记(适合小白)1、项目源码以及主要参考2、Swin-Transformer介绍3、模型的构成3.1PatchPartition3.2LinearEmbedding3.3SwinTransformerBlockLayerNormal(LN)WindowsMulti-headSelfAttation(W-MSA)WindowsMulti-headSelfAttation(SW-MSA)MLP3.4PatchMerging4、源码的使用最近在学习深度学习和机器学习的相关知识,在这里记录一下学习的模型和个人的一些感悟,文章包括了模型的讲解和项目源码。由于自身水平原

利用pytorch自定义CNN网络(二):数据集的准备

本文是利用pytorch自定义CNN网络系列的第二篇,主要介绍构建网络前数据集的准备,关于本系列的全文见这里。笔者的运行设备与软件:CPU(AMDRyzen™54600U)+pytorch(1.13,CPU版)+jupyter;本文所用到的资源:链接:https://pan.baidu.com/s/1WgW3IK40Xf_Zci7D_BVLRg提取码:1212在训练网络模型时,我们可以使用torchvision库自带的数据集(torchvision.datasets),也可以使用自己的数据集。实际运用中一般都是使用自己的数据集,本文就讲一下该如何准备自己的数据。这里呢,笔者偷了个懒,我使用的是

利用pytorch自定义CNN网络(一):torchvision工具箱

本文是利用pytorch自定义CNN网络系列的第一篇,主要介绍torchvision工具箱及其使用,关于本系列的全文见这里。笔者的运行设备与软件:CPU(AMDRyzen™54600U)+pytorch(1.13,CPU版)+jupyter;本文所用到的资源:链接:https://pan.baidu.com/s/1WgW3IK40Xf_Zci7D_BVLRg提取码:12121.torchvision简介torchvision是基于pytorch的工具箱,主要用来处理图像数据,其内包含一些常用的数据集、模型、图像转换等。torchvision工具箱主要包含以下四大模块:torchvision.m

自然语言处理: 第六章Transformer- 现代大模型的基石

理论基础Transformer(来自2017年google发表的AttentionIsAllYouNeed(arxiv.org)),接上面一篇attention之后,transformer是基于自注意力基础上引申出来的结构,其主要解决了seq2seq的两个问题:考虑了原序列和目标序列自身内部的自注意力大大降低的计算成本以及复杂度,完全由全连接层替代了时序模型,使得模型可以并行处理自从transformer架构出现后,基于transformer的大模型就开始遍地开花,可以看到下图中超过百万级别的大模型凑够18年以后就层出不穷。transformer的整体结构如下图,整体可以分成9各部分:其中红线