cuda常见报错

贝叶斯巴达 2023-04-19 原文

RuntimeError: CUDA error: device-side assert triggered

CUDA kernel errors might be asynchronously reported at some other API call,
so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.
/pytorch/aten/src/ATen/native/cuda/IndexKernel.cu:93:
operator(): block: [0,0,0], thread: [70,0,0]
Assertion index >= -sizes[i] && index < sizes[i] && "index out of bounds" failed.

Assertion `index >= -sizes[i] && index < sizes[i] && "index out of bounds"

数据超出了边界。在给出label的时候，我的数据集在某个标签上会给进去一个小于零或者大于类别数的一个标签，大白话就是设定了模型分类数量为4，但是数据集中有大于4个类别则会报错，少于4个是不会报错。

解决方法：修改预设的类别数量，class_map里面预先写好的类别个数和实际的数据集里面的标签种类和个数不同。可以要修改class_map或者修改数据集。

device-side assert triggered,CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.

/pytorch/aten/src/ATen/native/cuda/IndexKernel.cu:93: operator(): block: [0,0,0], thread: [28,0,0] Assertion index >= -sizes[i] && index < sizes[i] && "index out of bounds" failed.

标签索引不正确，即标签编号大于定义标签，定义crf层的时候标签的类别数和yaml中的类别数不同，要么修改标签文件，要么修改层的类别数量定义

TypeError: can't convert cuda:0 device type tensor to numpy. Use Tensor.cpu() to copy the tensor to host memory first.

原因：

a = str(trues_cls.detach().numpy()[0]) #这样是错误的

numpy不能读取CUDA tensor 需要将它转化为 CPU tensor。

解决方法：

CUDA tensor格式的数据改成numpy时，需要先将其转换成cpu float-tensor随后再转到numpy格式。

a= str(trues_cls.detach().cpu().numpy()[0])  # 这样是正确的

# detach(): 返回一个新的Tensor,但返回的结果是没有梯度的。 
# cpu():把gpu上的数据转到cpu上。 
# numpy():将tensor格式转为numpy

RuntimeError: CUDA error: invalid device ordinal

CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.

For debugging consider passing CUDA_LAUNCH_BLOCKING=1.

输入的显卡卡号错了，可以切换显卡号的数字尝试

不同的设备同样参数的情况下训练结果不一致的问题

原因：dropout层的随机性，当输入dropout层的数据维度大于57346时，从第57347位开始不同显卡的结果会不一样，原因是不同显卡的数据采样方法在第57346位后存在差别。

解决方法：手动构造一个由randn实现的dropout层，可以实现跨机结果一致

伯努利分布，使用torch.tensor,与cuda有关，randn和数字有关

服务器存在两个卡，但只能用其中一张卡跑程序

原因：环境使用了export，导致只有一个 GPU可见 (GPU:0)，而程序中使用 GPUs:1。

输入export CUDA_VISIBLE_DEVICES = '0,1'，让设备变为两个，方便在环境中随意切换

见报 cuda xff0c xff xff0 深度学习 python pytorch 开发语言人工智能

有关cuda常见报错的更多相关文章

【RuntimeError: CUDA error: device-side assert triggered】问题与解决 - 2
RuntimeError:CUDAerror:device-sideasserttriggered问题描述解决思路发现问题：总结问题描述当我在调试模型的时候，出现了如下的问题/opt/conda/conda-bld/pytorch_1656352465323/work/aten/src/ATen/native/cuda/IndexKernel.cu:91:operator():block:[5,0,0],thread:[63,0,0]Assertion`index>=-sizes[i]&&index通过提示信息可以知道是个数组越界的问题。但是如图一中第二行话所说这个问题可能并不出在提示的代码段
解决 AssertionError Torch not compiled with CUDA enabled - 2
最近在矩池云的的TeslaK80机子上跑MMYOLO，跟着MMYOLO官方文档《自定义数据集标注+训练+测试+部署全流程》操作到“2.1.1软件或者算法辅助”时，利用预训练模型+官方脚本去辅助标注时，一按下回车就报错：报错信息AssertionErrorTorchnotcompiledwithCUDAenabled报错信息分析说的是torch编译的时候CUDA不可用但是服务器已经预装有pytorch和cuda了，我分别用nvidia-smi和nvcc-V都可以查到CUDA的版本本机配置如下：但是我在ipython中查看torch.cuda.is_available()返回结果是false，报错
从0开始快速使用StarUml画ER图,生成SQL建表代码,附解决DDL常见报错方法 - 2
使用StarUml画ER图,生成SQL建表代码,解决常见报错遇到稍微复杂一些的业务,先整理需求在下手会使得开发过程中头发少掉一些,尤其是团队合作的项目效果尤为明显,在整理完业务需求后,从数据库开始下手能让后端的头发掉少一些.找个好的软件能在整理数据库的时候再少掉点头发,并且减轻简单重复的打字工作.如果图画好了,数据库建表的语句能自动打出来就好了.诶,还真有软件可以做到,而且还容易使用,这实属是懒人福音,头发的救星啊.快速开始在这里假设您了解什么是ER图以及一些相关的知识,本文将会在两分钟内结合图片介绍StarUml画ER图的方法.点击链接下载安装StarUml.有点可惜的是这个软件是收费的,而
【ubuntu环境配置】超详细ubuntu20.04/22.04安装nvidia驱动/CUDA/cudnn - 2
一、NVIDIA显卡驱动安装nvidia显卡驱动安装方式有三种：使用ubuntu附加驱动的方式；使用命令行方式安装；使用.run文件的方式进行安装，1.1ubuntu附加驱动的方式点击菜单中的AdditionalDrivers选择适合的驱动版本进行安装，该方法最方便快捷（但有时会翻车）1.2命令行方式安装更新所有的软件包sudoadd-apt-repositoryppa:graphics-drivers/ppa#加入官方ppa源sudoaptupdate#检查软件包更新列表aptlist--upgradable#查看可更新的软件包列表sudoaptupgrade#更新所有可更新的软件包安装显卡
c - 尝试在 Windows 上使用 cuda - 2
有各种依赖于cuda.h文件和cuda库(特别是ML库)的Go库。每次我尝试在Windows上安装这些库之一时，我都会收到一条错误消息fatalerror:cuda.h:Nosuchfileordirectory//#include我知道我需要做什么(将Cuda库/头文件链接到我要安装的go库)，但是，我不确定如何去做，尤其是在Windows上。由于各种原因，我使用GCC而不是MSVC，但即使我尝试使用MSVC，我也遇到了同样的问题。有什么方法可以将cuda编译器/头文件直接链接到我的Go环境，或者我是否需要手动将go/cgo编译器指向保存Cuda头文件的目录，我该怎么做？我试过向一些
Elastic: canal数据同步到ES配置常见报错 - 2
0.引言所有报错均为博主在实操过程中遇到的错误和解决办法，如果有其他报错或者不同的解决办法，请留言告诉我安装canal过程中遇到问题，先在本文中查询是否有相同报错，将会为你节约大量排错时间环境jdk1.8canal1.1.5mysql8.0es7.13.01.Unknownsystemvariable‘query_cache_size’这是因为mysql驱动包的版本过低导致的，querycache在MySQL5.7.20就已经过时了，而在MySQL8.0之后就已经被移除了1、只需要将lib中的驱动器替换成mysql-connector-java-8.0.22.jar2、修改驱动器权限chmod
Selenium常见报错解决 - 2
在使用selenium进行自动化测试时，运行时经常出现一些报错，以下为一些常见的报错，以及相应的解决办法。一、元素找不到Message:nosuchelement:Unabletolocateelement:{"method":"xpath","selector":"//span[text()="删除"]"}分析原因及解决方法：1. 元素的xpath写错了，可以复制到浏览器F12中校验xpath是否正确2. 页面未加载完成，运行该行代码时导致无法找到该元素，在改行代码前面加上几秒的睡眠，如time.sleep(3)未切入到该元素的对应的iframe下，通过driver.switch_to.fr
c - 是否可以在 Windows 机器上为 Linux 编译 CUDA C 代码？ - 2
我有一个问题。我需要为linux编译C代码，但我使用的是我真正想要使用的WindowsIDE。因此，我需要一个像gcc这样能够编译C代码的命令行编译器可执行文件。此外，我还需要能够将CUDAC代码编译成linux程序。因此我的问题:是否可以在Windows机器上将CUDAC代码编译成Linux程序？如果可能的话，有人可以给出设置编译器的完整描述吗？谢谢! 最佳答案我会选择在Windows之上的虚拟UbuntuLinux您可以使用virtualbox来做到这一点虚拟机关于c-是否可以在
windows - CUDA、Win7、Qt Creator - LNK1104 : cannot open file '<cuda file>.obj' - 2
我正在尝试将CUDA与QtCreator、Win7和VS2012编译器一起使用。我有在Windows上使用Qt的经验，但未能成功设置将CUDA代码集成到Qt项目中。我已经尝试了几个已发布的解决方案(例如CompilingCudacodeinQtCreatoronWindows)，但都没有成功。我最终决定简化我的代码并将其基于这篇博文:https://cudaspace.wordpress.com/2012/07/05/qt-creator-cuda-linux-review/但仍有问题。目前，我收到错误“LNK1104:无法打开文件‘obj\cuda_code.obj’”我的.pro文
linux - 如何在 Windows 上的 Visual Studio 中编写 CUDA 并将其部署到 Linux？ - 2
我正在协助一位教授为并行编程类(class)设置一个实验室。该过程如下:一名学生登录运行Windows7的虚拟机。这台机器没有可用的GPU。它安装了7.5版的CUDA工具包以及VisualStudio2013。学生应该使用VisualStudio编写他们的CUDA程序/项目。为了测试/运行这些项目，学生可以远程访问相当高端的机器。我没有物理访问它的权限，但从我使用命令行可以看出，它有四个NVIDIATeslaM40。学生可以通过SSH远程访问这台机器。但是，问题是这台机器运行的是Linux(Ubuntu14.04.5)。我正在尝试弄清楚如何将学生在Windows上的VisualStud