Cuda_草庐IT

c++ - 是否有一个快速的内存队列我可以使用它在达到一定大小时交换项目？

我使用c/c++/cuda不到一周，并且不熟悉库方面的所有可用选项(抱歉，如果我的问题太古怪或不可能)。这是我的问题，我有一个过程，它获取数据并对其进行分析，然后执行3件事中的1件事，(1)保存结果，(2)丢弃结果或(3)分解数据并将其发送回处理。通常选项(3)会创建大量数据，并且我很快就会超过我可用的内存(我的服务器是16gigs)所以我解决这个问题的方法是设置一个队列服务器(rabbitmq)，我将发送并从中接收工作(一旦达到一定大小的内存，它就会交换队列)。当我使用具有更快网卡的小型服务器来传输数据时，这非常有效，但最近我一直在学习并将我的代码从Java转换为c/c++并在GPU

amp 43 section 自定的 c++c io cuda message-queue

c++ - 是否有一个快速的内存队列我可以使用它在达到一定大小时交换项目？

我使用c/c++/cuda不到一周，并且不熟悉库方面的所有可用选项(抱歉，如果我的问题太古怪或不可能)。这是我的问题，我有一个过程，它获取数据并对其进行分析，然后执行3件事中的1件事，(1)保存结果，(2)丢弃结果或(3)分解数据并将其发送回处理。通常选项(3)会创建大量数据，并且我很快就会超过我可用的内存(我的服务器是16gigs)所以我解决这个问题的方法是设置一个队列服务器(rabbitmq)，我将发送并从中接收工作(一旦达到一定大小的内存，它就会交换队列)。当我使用具有更快网卡的小型服务器来传输数据时，这非常有效，但最近我一直在学习并将我的代码从Java转换为c/c++并在GPU

amp 43 section 自定的 c++c io cuda message-queue

笔记--Ubuntu20.04安装Nvidia驱动、CUDA Toolkit和CUDA CuDNN

目录1--安装Nvidia驱动2--安装CUDA2-1--禁用nouveau2-2--选择CUDAToolkit2-3--下载和安装CUDAToolkit2-4--配置环境变量2-5--测试是否安装成功：3--安装CUDACuDNN4--测试pytorch能否使用Cuda1--安装Nvidia驱动①查看可安装的Nvidia驱动版本：ubuntu-driversdevices②安装相应版本的Nvidia驱动：博主这里选择的是第一个，也可以安装推荐（recommended）的版本sudoapt-getinstallnvidia-driver-515安装过程中，一般要设置一个密码，这个密码在后面重启

CUDA Toolkit span style xff python 人工智能深度学习

c++ - 在同一全局内存位置并发写入

我有几个block，每个block在大小为512的共享内存数组中都有一些整数。如何检查每个block中的数组是否包含零作为元素？我正在做的是创建一个驻留在全局内存中的数组。该数组的大小取决于block的数量，它被初始化为0。因此，如果共享内存数组包含零，则每个block都会写入a[blockid]=1。我的问题是当我在一个block中同时写入多个线程时。也就是说，如果共享内存中的数组包含多个零，那么几个线程将写入a[blockid]=1。这会产生任何问题吗？也就是说，如果2个线程将完全相同的值写入全局内存中完全相同的数组元素会不会有问题？最佳答案

amp 43 section strong block c++c cuda

c++ - 在同一全局内存位置并发写入

我有几个block，每个block在大小为512的共享内存数组中都有一些整数。如何检查每个block中的数组是否包含零作为元素？我正在做的是创建一个驻留在全局内存中的数组。该数组的大小取决于block的数量，它被初始化为0。因此，如果共享内存数组包含零，则每个block都会写入a[blockid]=1。我的问题是当我在一个block中同时写入多个线程时。也就是说，如果共享内存中的数组包含多个零，那么几个线程将写入a[blockid]=1。这会产生任何问题吗？也就是说，如果2个线程将完全相同的值写入全局内存中完全相同的数组元素会不会有问题？最佳答案

amp 43 section strong block c++c cuda

解决cuda版本不对应问题

windows10，python3.6.5，rtx3060ti一：问题及初步尝试解决最近跑一个需要使用cuda的代码，但是一直有问题。检查到最后发现是最前面有一个if判断cuda是否可用一直返回falseiftorch.cuda.is_available()这说明cuda不可用，于是选择输出torch和cuda的version看一下，即print(torch.__version__)print(torch.version.cuda)发现前一个输出结果是None，后一个输出结果是'1.10.2+cpu'，这说明pytorch装的版本是CPU版本的。于是去卸载虚拟环境中的torch，去pytorc

对应版本 section style xff0c python 深度学习开发语言

c++ - CUDA:在 C++ 中包装设备内存分配

我现在开始使用CUDA，不得不承认我对CAPI有点失望。我理解选择C的原因，但是如果该语言是基于C++的，那么几个方面会简单得多，例如设备内存分配(通过cudaMalloc)。我的计划是自己做这个，使用重载的operatornew和放置new和RAII(两种选择)。我想知道到目前为止是否有任何我没有注意到的警告。代码似乎可以工作，但我仍然想知道潜在的内存泄漏。RAII代码的用法如下:CudaArraydevice_data(SIZE);//Use`device_data`asifitwerearawpointer.也许在这种情况下一个类是多余的(特别是因为你仍然必须使用cudaMe

amp 包装设备 code CudaDevice const c++cuda raii placement-new

c++ - CUDA:在 C++ 中包装设备内存分配

我现在开始使用CUDA，不得不承认我对CAPI有点失望。我理解选择C的原因，但是如果该语言是基于C++的，那么几个方面会简单得多，例如设备内存分配(通过cudaMalloc)。我的计划是自己做这个，使用重载的operatornew和放置new和RAII(两种选择)。我想知道到目前为止是否有任何我没有注意到的警告。代码似乎可以工作，但我仍然想知道潜在的内存泄漏。RAII代码的用法如下:CudaArraydevice_data(SIZE);//Use`device_data`asifitwerearawpointer.也许在这种情况下一个类是多余的(特别是因为你仍然必须使用cudaMe

amp 包装设备 code CudaDevice const c++cuda raii placement-new

c++ - 来自设备纹理阵列的 NVIDIA CUDA 视频编码器 (NVCUVENC) 输入

我正在修改CUDAVideoEncoder(NVCUVENC)SDK示例包中的编码示例，因此数据不是来自外部yuv文件(如示例中所做的那样)，而是来自从纹理填充的cudaArray。所以编码帧的关键API方法是:intNVENCAPINVEncodeFrame(NVEncoderhNVEncoder,NVVE_EncodeFrameParams*pFrmIn,unsignedlongflag,void*pData);如果我得到正确的参数:CUdeviceptrdptr_VideoFrame应该将数据传递给编码。但我真的不明白如何将它与GPU上的一些纹理数据连接起来。示例源代码非常模糊，

amp NVCUVENC sEncoderParams pcChroma pcopy c++cuda gpgpu

c++ - 来自设备纹理阵列的 NVIDIA CUDA 视频编码器 (NVCUVENC) 输入

我正在修改CUDAVideoEncoder(NVCUVENC)SDK示例包中的编码示例，因此数据不是来自外部yuv文件(如示例中所做的那样)，而是来自从纹理填充的cudaArray。所以编码帧的关键API方法是:intNVENCAPINVEncodeFrame(NVEncoderhNVEncoder,NVVE_EncodeFrameParams*pFrmIn,unsignedlongflag,void*pData);如果我得到正确的参数:CUdeviceptrdptr_VideoFrame应该将数据传递给编码。但我真的不明白如何将它与GPU上的一些纹理数据连接起来。示例源代码非常模糊，

amp NVCUVENC sEncoderParams pcChroma pcopy c++cuda gpgpu