草庐IT

cuda-c-programming-guide

全部标签

报错记录torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 90.00 MiB (GPU 0; 7.93 GiB to

torch.cuda.OutOfMemoryError:CUDAoutofmemory.Triedtoallocate90.00MiB(GPU0;7.93GiBtotalcapacity;758.34MiBalreadyallocated;5.75MiBfree;858.00MiBreservedintotalbyPyTorch)Ifreservedmemoryis>>allocatedmemorytrysettingmax_split_size_mbtoavoidfragmentation.SeedocumentationforMemoryManagementandPYTORCH_CUDA_

RuntimeError: CUDA error: CUBLAS_STATUS_NOT_INITIALIZED when calling `cublasCreate(handle)`

问题背景今天训练BERT时遇到了这个bug:RuntimeError:CUDAerror:CUBLAS_STATUS_NOT_INITIALIZEDwhencalling`cublasCreate(handle)`于是在网上搜罗了一番,发现基本都是在说batchsize开的太大,但调小batchsize对我而言并不能解决问题。解决过程既然是比较罕见的CUDA报错,为什么不尝试先在CPU上跑跑看看呢?于是我将device='cuda'iftorch.cuda.is_available()else'cpu'直接改成了device='cpu',再运行代码时遇到了如下的bug(只截取了最后几行):Fi

完整的Ubuntu20.04+ROS+PX4+Anaconda+PyTorch+GPU+CUDA+CUDNN+XTdrone配置智能无人机开发环境搭建过程

概述我之前写了如何在Ubuntu18下搭配一系列软件的教程,然后近期重新安装20.04版本,于是重新记录一些东西,但是众多东西之前已经有了,所以我在这里知会在一些不同的地方和新增的地方特别说明,其他的请大家看之前的博客。对xtdrone的理解在搞了这么久的ros和px4之后,我也明白了xtdrone是什么了,它本质上就是一个包含了多个例程和模型文件的仓库,以gazebo和px4、ros为基础,做出来的一些初学者可以上手即用的例子,类比一下就是这样:你想学做题(进行应用),如何已经学会了一些基础知识(就是ros等基础),但是不知道怎么做题,然后肖昆老师团队出了一本例题集,你可以看一下一些题目是怎

Ubuntu20.04卸载cuda12.0

解决方法刚装cuda的时候没仔细看版本,默认安装了cuda12.0,然后发现pytorch并不支持12.0的版本,于是卸载重装,先贴解决办法再吐槽:解决办法是参考的Nvidia官方文档只需要两步:sudoapt-get--purgeremove"*cuda*""*cublas*""*cufft*""*cufile*""*curand*""*cusolver*""*cusparse*""*gds-tools*""*npp*""*nvjpeg*""nsight*""*nvvm*"sudoapt-getautoremove官方文档中实际上是三步:#ToremoveCUDAToolkit:sudoap

TypeError: cannot assign ‘torch.cuda.FloatTensor‘ as parameter ‘bias‘ (torch.nn.Parameter or None ex

报错定位到的位置是在:self.bias=self.bias.cuda()意为将把bias转到gpu上报错;网上查询了很多问题都没解决,受到这篇博客的启发;pytorch手动设置参数变量并转到cuda上_XiaoPangJix1的博客-CSDN博客原因可能是:bias是torch.nn.Parameter(),转移到cuda上失败,提示此报错;其实根本原因比较简单,就是在model定义的时候没有将model转移到cuda上,因此修改代码为如下即可:a=torch.Tensor(1,1,256,256)iftorch.cuda.is_available():a=a.cuda()EE_Block=

解决使用npm出现Error: Cannot find module ‘C:\Program Files\nodejs\node_modules\npm\bin\npm-cli.jsprefix‘报错

在我设置公司镜像源的时候遇到以下报错:Error:Cannotfindmodule'C:\ProgramFiles\nodejs\node_modules\npm\bin\npm-cli.jsprefix',导致切换失败 分析问题:可以看到,报错的内容如下: 1、可以看到,问题的症结在于,无法找到npm-cli.js文件2、既然无法找到,那么指定就是在安装目录下面少了些文件,那我们就顺着这个路径去看是从哪里开始找不到文件的3、打开安装目录发现,在node_modules下没有npm目录4、说明我们不知道什么时候把npm目录删掉了解决办法:1、重装Node.js—较为麻烦;2、下载npm放到我们

docker: Error response from daemon: driver failed programming external connectivity on endpoint es

项目场景:在使用dockerrun添加docker容器elasticsearch时,出现的错误。问题描述dockerps时未发现es,说明es没有成功启动。dockerps-a时,es却是存在的。原因分析:这个错误可以理解为:docker在启动容器的时候或者是对docker做配置时,对防火墙设置重新启动等操作,这导致docker的相关配置被清除,导致在查询防火墙规则的时候找不到docker的链。解决方案:直接重新启动docker,再次相关的docker容器即可。重启docker:systemctlrestartdocker 挨个启动docker中的容器dockerps-a#查出配置所有的容器d

RuntimeError:CUDA error:no kernel image is available for execution on the device报错解决(亲测)

深度学习算法训练报错调试Transformer网络,安装完timm包之后,运行程序时报错CUDAerror:nokernelimageisavailableforexecutiononthedevice,如图所示:网上对于该错误说啥的都有,因为这是第一次遇到这个错误,之前训练CNN也正常,排除显卡算力低,不支持高版本CUDA问题。看来看去,这位博主说的有道理:CUDAerror:nokernelimageisavailableforexecutiononthedevice报错解决方法开始检查自己的pytorch相关包的版本,如图所示:发现问题,我原本torch版本是1.9.1,但是由于安装ti

RuntimeError: Input type (torch.cuda.FloatTensor) and weight type (torch.FloatTensor) should be the

问题描述:mobilenetv3在残差块中加入了注意力机制 用GPU进行训练时报的错解决方法1:1,不用GPU用CPU就可以CUDA设置为False,确实可以解决,但是不用GPU好像意义不大解决方法2:用仍然用GPU,看下面的的解决方案:报错的原因:21,我直接在倒残差块的前向传播内对导入的注意力模块进行了实例化然后直接调用错误范例2,错误分析:参照这个链接得到启发原文链接:https://blog.csdn.net/qq_42902997/article/details/122594017这个时候就会报错,而报错的原因,就是因为torch的流程是这样的:首先将所有的模型加载,先从主干网络 开

npm install报错C:\Program Files\Git\cmd\git.EXE ls-remote -h -t ssh://git@github.com/sohee-lee7/Squire

vue-element-admin安装时npminstall报错npmERR!Errorwhileexecuting:npmERR!C:\ProgramFiles\Git\cmd\git.EXEls-remote-h-tssh://git@github.com/sohee-lee7/Squire.gitnpmERR!npmERR!Hostkeyverificationfailed.npmERR!fatal:Couldnotreadfromremoterepository.npmERR!npmERR!PleasemakesureyouhavethecorrectaccessrightsnpmER