我已阅读CUDA编程指南,但我错过了一件事。假设我在全局内存中有32位int数组,我想通过合并访问将它复制到共享内存。全局数组的索引从0到1024,假设我有4个block,每个block有256个线程。__shared__intsData[256];何时执行合并访问?1.sData[threadIdx.x]=gData[threadIdx.x*blockIdx.x+gridDim.x*blockIdx.y];全局内存中的地址从0复制到255,每个被32个线程在warp中复制,这样就可以了?2.sData[threadIdx.x]=gData[threadIdx.x*blockIdx.x