nvidia-cuda-toolkit

c++ - 是否有可能让持久的 cuda 内核运行并与 cpu 异步通信？

据我所知，Cuda流和memorycpyasync需要我们将不同的内核、内存操作标记为不同的流，以使gpu操作与cpu操作并发。但是是否有可能拥有一个持久内核。这个内核启动一次，永远循环，检查“一些标志”以查看是否有来自CPU的数据然后对其进行操作。当这“一段”数据完成时，GPU为CPU设置一个“标志”，CPU看到它并将数据复制回来。该内核永远不会结束运行。这是否存在于当前的cuda编程模型中？我能得到的最接近这个的是什么？最佳答案是的，这是可能的。一种方法是使用零拷贝(即GPU映射)主机内存。主机将其数据放在映射区域中，GPU

c++ - 如何从主机代码中断或取消 CUDA 内核

我正在使用CUDA，我试图在某个ifblock被命中后停止我的内核工作(即终止所有正在运行的线程)。我怎样才能做到这一点？我真的被困在这里了。最佳答案 CUDA执行模型在设计上不允许block间通信。如果不诉诸assert或trap类型的方法，这可能会使这种内核中止条件操作难以可靠地实现，这可能会导致上下文破坏和数据丢失这可能不是您想要的。如果您的内核设计涉及少量具有“驻留”线程的block，那么唯一的方法是某种原子自旋锁，它很难可靠地工作，并且会大大降低内存Controller性能和可实现的带宽.另一方面，如果您的内核设计有相当

cuda调试（一）vs2019-windows-Nsight system--nvtx使用，添加nvToolsExt.h文件

cuda调试由于在编程过程中发现不同的网格块的结构，对最后的代码结果有影响，所以想记录一下解决办法。CUDA的Context、Stream、Warp、SM、SP、Kernel、Block、Gridcudacontext(上下文)context类似于CPU进程上下，表示由管理层Drive层分配的资源的生命周期，多线程分配调用的GPU资源同属一个context下，通常与CPU的一个进程对应。CUDAStreamCUDAStream是指一堆异步的CUDA操作，他们按照host代码调用的顺序执行在device上。Stream维护了这些操作的顺序，并在所有预处理完成后允许这些操作进入工作队列，同时也可以

c++ - Visual Studio 2013 是否支持 Cuda 6？

VisualStudio2013是否支持Cuda6？如果不是，是否有破解方法可以让两者相互配合？我看到升级到VS2013有很多值(value)，因为它(VC++)更好地实现了C++11标准，升级到CUDA6的统一内存架构和其他改进。最佳答案 CUDA6官方支持的内容列在cuda-getting-started-guide-for-microsoft-windowspdf文档中，该文档随CUDA6工具包一起安装。VS2013官方不支持CUDA6。VS2013官方支持CUDA6.5，可以从安装CUDA6.5工具包的相应文档中验证。

c++ - 如何使用推力和 CUDA 流将内存从主机异步复制到设备

我想使用推力将内存从主机复制到设备thrust::host_vectorh_vec(1d_vec(1使用CUDA流类似于使用流将内存从设备复制到设备的方式:cudaStream_ts;cudaStreamCreate(&s);thrust::device_vectord_vec1(1问题是我无法将执行策略设置为CUDA以指定从主机复制到设备时的流，因为在这种情况下，推力会假定两个vector都存储在设备上。有没有办法解决这个问题？我正在使用来自github的最新推力版本(在version.h文件中显示为1.8)。最佳答案如评论中

c++ - 在 CUDA 中编写内核函数的正确方法？

我正准备着手将我编写的程序转换为CUDA，以期提高处理速度。现在显然我的旧程序一个接一个地执行许多函数，我在主程序中将这些函数分开并按顺序调用每个函数。voidmain(){*initializationofvariables*function1()function2()function3()printresult;}这些函数本质上是串行的，因为funtion2依赖于funtion1的结果。好吧，现在我想把这些函数转换成内核，并并行运行函数中的任务。是不是很简单，并行重写每个函数，然后在我的主程序中，一个接一个地调用每个内核？这比需要的慢吗？例如，我是否可以让我的GPU直接执行下一个并

c++ - 从主机访问 CUDA 全局设备变量

我想知道是否有官方来源，为什么以下内容有效:#includestructArray{intel[10000];};__device__ArraydevAr;voidtest(Array&ar=devAr){for(inti=0;i如果您尝试直接访问devAr但通过引用没有这样的警告(有充分的理由)，您会收到警告“无法在主机函数中直接读取__device__变量“devAr””。但在这两种情况下，都可以从主机访问变量。看来，该变量有一个主机实例。我需要知道的是:我可以认为这是理所当然的吗？其他显示指针值的测试用例:#include#include__device__intdevAr[2]

c++ - 是否有等同于 std::numeric_limits 的 CUDA？

我想确定最大值intCUDA内核中的值。不幸的是，我找不到任何类似于std::numeric_limits的东西对于CUDA。尝试使用::std函数导致错误:error:callinga__host__function("std::numeric_limits::max")froma__global__function("xyz_kernel")isnotallowedC:\cuda.cu(153)(col.10)有没有一种方法可以通过内核确定所需的值，或者我应该将其作为参数传递？最佳答案它存在，但不像std::numeric_

c++ - 可以使用 clang 将 C++17 与 CUDA 一起使用吗？

就使用nvcc而言，需要结合使用相应的gcc(我相信目前最大为5.4)。这当然会在某种程度上阻止人们在主机端使用C++17。因为C++17可以使用clang5和更高版本编译(参见here)，并且也可以编译cuda代码(参见here)，是不是是否可以同时使用C++17和CUDA(或者是否会出现问题，例如CUDA运行时)？最佳答案是的，正如您已经猜到的那样，CUDAclang前端在C++功能支持方面确实领先，甚至在设备代码方面也是如此。这已经是过去了，在NVCC之前引入了C++14特性，社区大多没有注意到。以这个C++17为例，不必

c++ - CUDA 中的稀疏矩阵 vector 乘法

我正在尝试在GPU上实现矩阵vector乘法(使用CUDA)。在我的C++代码(CPU)中，我将矩阵加载为密集矩阵，然后使用CUDA执行矩阵vector乘法。我还使用共享内存来提高性能。如何在知道我的矩阵是稀疏矩阵的情况下以高效方式加载矩阵？下面是我加载矩阵的C++函数:intreadMatrix(char*filename,float*&matrix,unsignedint*dim=NULL,intmajority=ROW_MAJOR){unsignedintw,h,x,y,num_entries;floatval;std::ifstreamfile(filename);if(fil