草庐IT

cudaMemcpyDeviceToDevice

全部标签

c++ - CUDA 设备到设备传输昂贵

我已经编写了一些代码来尝试交换二维矩阵的象限以用于FFT目的,该矩阵存储在平面数组中。intleftover=W-dcW;T*temp;T*topHalf;cudaMalloc((void**)&temp,dcW*sizeof(T));//swapeveryrow,leftandrightfor(inti=0;i请注意,此代码采用设备指针,并进行DeviceToDevice传输。为什么这看起来运行得这么慢?这可以以某种方式优化吗?与使用常规memcpy的主机上的相同操作相比,我对这个进行了计时,速度大约慢了2倍。有什么想法吗? 最佳答案