我正在尝试使用Cuda和C++在GPU上执行两项任务(分为2个内核)。作为输入,我采用NxM矩阵(作为float组存储在主机的内存中)。然后,我将使用一个内核对该矩阵执行一些操作,使其成为NxMxD矩阵。然后我有第二个内核,它对这个3D矩阵执行一些操作(我只是读取值,我不必向它写入值)。在纹理内存中操作对于我的任务来说似乎要快得多所以我的问题是是否可以在内核1之后从设备上的全局内存复制我的数据并将其直接传输到内核2的纹理内存而不将其取回给主人?更新我添加了一些代码来更好地说明我的问题。这是两个内核。第一个现在只是一个占位符,将2D矩阵复制到3D中。__global__voidcompu