按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visitthehelpcenter指导。关闭10年前。您使用什么库在CUDA上进行矩阵计算?或者有没有?好像每个人都是自己写的。对于通常的处理器,我使用Eigen.GPU呢?
我可以使用哪些并行算法从给定的集合中生成随机排列?特别是适合CUDA的论文的建议或链接会很有帮助。这的顺序版本将是Fisher-Yates洗牌。例子:设S={1,2,...,7}为源索引集。目标是并行生成n个随机排列。n个排列中的每一个都恰好包含每个源索引一次,例如{7,6,...,1}。 最佳答案 Fisher-Yatesshuffle可以并行化。例如,4个并发worker只需要3次迭代来洗牌8个元素的vector。在第一次迭代中,它们交换01、23、45、67;第二次迭代02、13、45、67;以及最后一次迭代04、15、26、
随着数据大小增加超过260k,我的CUDA程序停止工作(它不打印任何内容)。有人能告诉我为什么会这样吗?这是我的第一个CUDA程序。如果我想要更大的素数,如何在CUDA上使用大于longlongint的数据类型?显卡为GT425M。#include#include#include#defineSIZE250000#defineBLOCK_NUM96#defineTHREAD_NUM1024intdata[SIZE];__global__staticvoidsieve(int*num,clock_t*time){constinttid=threadIdx.x;constintbid=bl
我注意到cuda中有一个float1结构类型。与简单的float相比,是否有任何性能优势,例如,在使用float数组与float1数组的情况下?struct__device_builtin__float1{floatx;};在float4中有一个性能优势,这取决于场合,因为对齐是4x4bytes=16bytes。是否仅用于带有float1参数的__device__函数?提前致谢。 最佳答案 关注@talonmies对帖子的评论CUDAThrustreductionwithdouble2arrays,我比较了使用CUDAThrust计
我想用cuda8构建opencv3.2,我已经在我的linux系统中安装了cuda所需的所有库,这是一个Debian9testing(stretch)4.9.0-1-amd64使用cmake成功生成makefile后,通过执行make命令出现多重定义链接错误。我用cmake尝试了很多配置,我也检查了很多论坛中几乎所有相关问题,但我找不到任何解决方案。在cmake中,我将cuda编译器更改为gcc-5,因为cuda8需要gcc编译器不晚于版本5,默认gcc编译器是版本6.3这是我的cmake配置输出:OpenCVmodules:Tobebuilt:cudevcorecudaarithmf
我正在尝试使用Cuda和C++在GPU上执行两项任务(分为2个内核)。作为输入,我采用NxM矩阵(作为float组存储在主机的内存中)。然后,我将使用一个内核对该矩阵执行一些操作,使其成为NxMxD矩阵。然后我有第二个内核,它对这个3D矩阵执行一些操作(我只是读取值,我不必向它写入值)。在纹理内存中操作对于我的任务来说似乎要快得多所以我的问题是是否可以在内核1之后从设备上的全局内存复制我的数据并将其直接传输到内核2的纹理内存而不将其取回给主人?更新我添加了一些代码来更好地说明我的问题。这是两个内核。第一个现在只是一个占位符,将2D矩阵复制到3D中。__global__voidcompu
我在学习thisguide的同时正在学习CUDA。我还没有完成,但是我决定尝试一下到目前为止所看到的。我试图重写第一个使用256个线程的示例。我想这样做,以便每个线程都在数组的连续切片上进行操作。目标是将2个数组与1,048,576个项相加。为了进行比较,这是原始代码,其中根据跨步访问每个数组项:__global__voidadd(intn,float*x,float*y){intindex=threadIdx.x;intstride=blockDim.x;for(inti=index;i这是我的功能:__global__voidadd2(intn,float*x,float*y){i
我一直在努力弄清楚如何制作一个我认为是简单的内核来取二维矩阵中的值的平均值,但我在直接思考它时遇到了一些问题。根据我的deviceQuery输出,我的GPU有16MP,32cores/mp,block最大为1024x1024x64,我有最大线程/block=1024。所以,我正在处理一些大图像。也许5000pxx3500px或类似的东西。我的一个内核正在对图像中的所有像素取一些值的平均值。现有代码将图像存储为二维数组[行][列]。因此,在C中,内核看起来像您期望的那样,有一个遍历行的循环和一个遍历列的循环,中间有计算。那么如何在CUDA中设置这段代码的维度计算部分呢?我看过SDK中的缩
我是CUDA新手。我正在尝试并行化以下代码。现在它位于内核上但根本不使用线程,因此速度很慢。我试着用这个answer但到目前为止无济于事。内核应该生成前n个质数,将它们放入device_primes数组,稍后从主机访问该数组。代码是正确的,在串行版本中运行良好,但我需要加快速度,也许使用共享内存。//CUDAkernelcode__global__voidgeneratePrimes(int*device_primes,intn){//inti=blockIdx.x*blockDim.x+threadIdx.x;//intj=blockIdx.y*blockDim.y+threadId
在我的test.cu文件中(cu文件项类型是CUDAC/C++)__global__voidfoo(){}voidCudaMain(){foo>>();}在我的test.cpp文件中#include"mycuda.cu"intmain(){CudaMain();return0;}编译器在test.cu文件中向我发送错误“errorc2059syntaxerror' 最佳答案 在C++文件中包含CUDA源文件不起作用,因为这只会使CUDA源成为C++程序代码的一部分,而常规C++编译器不理解CUDA语法扩展。如果您仍然希望将CUDA代