cudaMemcpyDeviceToDevice

我已经编写了一些代码来尝试交换二维矩阵的象限以用于FFT目的，该矩阵存储在平面数组中。intleftover=W-dcW;T*temp;T*topHalf;cudaMalloc((void**)&temp,dcW*sizeof(T));//swapeveryrow,leftandrightfor(inti=0;i请注意，此代码采用设备指针，并进行DeviceToDevice传输。为什么这看起来运行得这么慢？这可以以某种方式优化吗？与使用常规memcpy的主机上的相同操作相比，我对这个进行了计时，速度大约慢了2倍。有什么想法吗？最佳答案