我在学习thisguide的同时正在学习CUDA。我还没有完成,但是我决定尝试一下到目前为止所看到的。我试图重写第一个使用256个线程的示例。我想这样做,以便每个线程都在数组的连续切片上进行操作。目标是将2个数组与1,048,576个项相加。为了进行比较,这是原始代码,其中根据跨步访问每个数组项:__global__voidadd(intn,float*x,float*y){intindex=threadIdx.x;intstride=blockDim.x;for(inti=index;i这是我的功能:__global__voidadd2(intn,float*x,float*y){i