草庐IT

nvidia-cuda-toolkit

全部标签

c++ - OpenMP 卸载到 Nvidia 错误减少

我有兴趣使用OpenMP将工作卸载到GPU。下面的代码在CPU上给出了sum的正确值//g++-O3-Wallfoo.cpp-fopenmp#pragmaompparallelforreduction(+:sum)for(inti=0;i它也像这样在带有OpenACC的GPU上工作//g++-O3-Wallfoo.cpp-fopenacc#pragmaaccparallelloopreduction(+:sum)for(inti=0;invprof表明它在GPU上运行,并且在CPU上也比OpenMP更快。但是当我尝试像这样使用OpenMP卸载到GPU时//g++-O3-Wallfoo.

c++ - opencv源码用cuda编译生成多重定义链接错误

我想用cuda8构建opencv3.2,我已经在我的linux系统中安装了cuda所需的所有库,这是一个Debian9testing(stretch)4.9.0-1-amd64使用cmake成功生成makefile后,通过执行make命令出现多重定义链接错误。我用cmake尝试了很多配置,我也检查了很多论坛中几乎所有相关问题,但我找不到任何解决方案。在cmake中,我将cuda编译器更改为gcc-5,因为cuda8需要gcc编译器不晚于版本5,默认gcc编译器是版本6.3这是我的cmake配置输出:OpenCVmodules:Tobebuilt:cudevcorecudaarithmf

c++ - Cuda - 从设备全局内存复制到纹理内存

我正在尝试使用Cuda和C++在GPU上执行两项任务(分为2个内核)。作为输入,我采用NxM矩阵(作为float组存储在主机的内存中)。然后,我将使用一个内核对该矩阵执行一些操作,使其成为NxMxD矩阵。然后我有第二个内核,它对这个3D矩阵执行一些操作(我只是读取值,我不必向它写入值)。在纹理内存中操作对于我的任务来说似乎要快得多所以我的问题是是否可以在内核1之后从设备上的全局内存复制我的数据并将其直接传输到内核2的纹理内存而不将其取回给主人?更新我添加了一些代码来更好地说明我的问题。这是两个内核。第一个现在只是一个占位符,将2D矩阵复制到3D中。__global__voidcompu

c++ - GLSL NVidia 方形工件

当GLSL着色器在以下GPU上生成不正确的图像时,我遇到了一个问题:GT430GT770GTX570GTX760但在这些上正常工作:英特尔核芯显卡2500英特尔高清4000英特尔4400GTX740MRadeonHD6310MRadeon高清8850Shader代码如下:boolPointProjectionInsideTriangle(vec3p1,vec3p2,vec3p3,vec3point){vec3n=cross((p2-p1),(p3-p1));vec3n1=cross((p2-p1),n);vec3n2=cross((p3-p2),n);vec3n3=cross((p1-

c++ - 每个显示器 DPI 感知 : black window glitch with NVIDIA Optimus

我想制作一个Per-MonitorDPI-AwareDirect2D应用程序。我已经扩展了Microsoft的"FirstDirect2DProgram"处理WM_DPICHANGED的示例,如KennyKerr'sMSDNarticle中所述.这在两个显示器都使用一个视频卡时有效,但在使用我的笔记本电脑的NVIDIAOptimus设置时出现故障。我可以通过运行Per-MonitorAwareWPFSample重现相同的故障通过以下步骤:每台显示器上的不同DPI比例因子。启用Optimus(集成显卡上的笔记本电脑显示屏,Quadro卡上的外接显示器)应用程序在主显示器上启动-右侧的外部

c++ - 使用CUDA对两个数组求和

我在学习thisguide的同时正在学习CUDA。我还没有完成,但是我决定尝试一下到目前为止所看到的。我试图重写第一个使用256个线程的示例。我想这样做,以便每个线程都在数组的连续切片上进行操作。目标是将2个数组与1,048,576个项相加。为了进行比较,这是原始代码,其中根据跨步访问每个数组项:__global__voidadd(intn,float*x,float*y){intindex=threadIdx.x;intstride=blockDim.x;for(inti=index;i这是我的功能:__global__voidadd2(intn,float*x,float*y){i

c++ - 计算一个 cuda 内核有多少 block 和线程,以及如何使用它们

我一直在努力弄清楚如何制作一个我认为是简单的内核来取二维矩阵中的值的平均值,但我在直接思考它时遇到了一些问题。根据我的deviceQuery输出,我的GPU有16MP,32cores/mp,block最大为1024x1024x64,我有最大线程/block=1024。所以,我正在处理一些大图像。也许5000pxx3500px或类似的东西。我的一个内核正在对图像中的所有像素取一些值的平均值。现有代码将图像存储为二维数组[行][列]。因此,在C中,内核看起来像您期望的那样,有一个遍历行的循环和一个遍历列的循环,中间有计算。那么如何在CUDA中设置这段代码的维度计算部分呢?我看过SDK中的缩

c++ - CUDA 并行化嵌套 for 循环

我是CUDA新手。我正在尝试并行化以下代码。现在它位于内核上但根本不使用线程,因此速度很慢。我试着用这个answer但到目前为止无济于事。内核应该生成前n个质数,将它们放入device_primes数组,稍后从主机访问该数组。代码是正确的,在串行版本中运行良好,但我需要加快速度,也许使用共享内存。//CUDAkernelcode__global__voidgeneratePrimes(int*device_primes,intn){//inti=blockIdx.x*blockDim.x+threadIdx.x;//intj=blockIdx.y*blockDim.y+threadId

c++ - CUDA 语法错误 '<'

在我的test.cu文件中(cu文件项类型是CUDAC/C++)__global__voidfoo(){}voidCudaMain(){foo>>();}在我的test.cpp文件中#include"mycuda.cu"intmain(){CudaMain();return0;}编译器在test.cu文件中向我发送错误“errorc2059syntaxerror' 最佳答案 在C++文件中包含CUDA源文件不起作用,因为这只会使CUDA源成为C++程序代码的一部分,而常规C++编译器不理解CUDA语法扩展。如果您仍然希望将CUDA代

c++ - 在 CUDA 内核中使用许多固定大小的矩阵

我希望处理大约4000个固定大小(3x3、4x4)的矩阵,进行矩阵求逆和特征分解等操作。在我看来,最好的并行化方法是让许多GPU线程中的每一个线程处理问题的单个实例。有没有合理的方法来做到这一点?我已阅读:http://www.culatools.com/blog/2011/12/09/batched-operations/但据我所知,这始终是“正在努力”但看不到解决方案的事情。三年后,我希望有一个好的解决方案。到目前为止,我看过:在CUDA内核中使用Eigen:http://eigen.tuxfamily.org/dox-devel/TopicCUDA.html.但这还处于起步阶段: