nvidia-cuda-toolkit

c++ - 调用 cuda 内核时的性能损失

我想知道在C/C++中执行cuda内核调用的开销是多少，如下所示:somekernel1>>(args);somekernel2>>(args);somekernel3>>(args);我问这个问题的原因是因为我正在构建的应用程序当前对多个内核进行重复调用(调用之间没有内存被重新读取/写入设备)，我想知道是否将这些内核调用包装到单个内核调用(某些内核1-3成为设备函数)会对性能产生任何有意义的差异。最佳答案在非WDDMWindows平台上，使用运行时API启动内核的主机端开销仅为大约15-30微秒。在WDDM平台(我不使用)上，

amp 43 section somekernel 的 c++c cuda

c++ - 我可以从不是由 nvcc 编译的 C++ 代码调用 CUDA 运行时函数吗？

有什么方法可以调用CUDA运行时函数调用，例如cudaMemcpy(...);在.cpp文件中，使用常规C++编译器编译？最佳答案编辑:有一个examplehere但它不再被发现，但大部分示例都复制在下面。调用者C(但可以是C++)#include#include#include#includeexternvoidkernel_wrapper(int*a,int*b);intmain(intargc,char*argv[]){inta=2;intb=3;kernel_wrapper(&a,&b);return0;}被调用者(CU

amp 43 int section cudaMemcpy c++cuda compatibility

解决RuntimeError：No CUDA GPUs are available

解决RuntimeError：NoCUDAGPUsareavailable如果本来显卡是能用的版本这些也能对的上。基本解决方法为在使用之前检查cuda是否可用不检测默认不可用。或者在文件头加入importtorchtorch.cuda.current_device()torch.cuda._initialized=True//检测一下cuda是否可用print(torch.cuda.is_available())False//重新在文件头加入下面说明importtorchtorch.cuda.current_device()torch.cuda._initialized=True如果这两种方式

RuntimeError available torch cuda br python 深度学习 numpy

c++ - 在 Windows 上使用 clang 编译 CUDA 时的重新定义

尽管question几乎相同已经问过，答案是针对OSX的，不再适用(而且真的很老套)。问题是在Windows上用clang编译cuda时，math_functions.hpp中有大量重定义。通过一些调查，显然cuda决定将其math_functions.hpp和math_functions.h函数放在namespacestd中(这是否合法？？)，并与cmath中的所有libstdc++函数和clang自己用于编译cuda的头文件发生冲突。我该如何处理？最好不要使用上一个问题中显示的hacky方式？旁注根据clang的documentation,clang可以基于__global__/_

amp Windows clang include cuda c++clang++

c++ - 在 CUDA 中增加每个线程的工作量的示例

算法:我正在用CUDA编写程序，问题如下:两个矩阵A(n*128)和B(m*128)我取A的第一行，并逐一计算该vector与B的所有行之间的距离。我将每个距离的结果写在矩阵C的一行上，因此C的元素C(i,j)包含A的第i行和B的第j行之间的距离。然后我继续处理A的下一行。我是这样实现的:我有一个由(n*m)个块组成的网格，每个块有128个线程。(1*128)。问题:程序成功运行并获得预期结果，但执行时间仅比它的单线程CPU版本快5到10倍。所以我想知道如何在减少之前增加每个线程的工作以提高性能.内核代码(原文:未优化)__global__voidEuclideanDistances(

amp 43 float kernel results c++cuda euclidean-distance distance-matrix

c++ - Visual Studio 中的 Cuda 并行代码生成

我在VisualStudio2012解决方案中有几个C++项目。这些项目包含大量文件和我用/MP以加快代码生成速度。我想知道是否有一种方法可以以类似的方式加速NVCC。在包含CUDA内核的项目中使用/MP不会缩短编译时间，而且我只能看到一个内核在工作。所以问题是:如何使用我的多核PC来加速CUDA编译？最佳答案从CUDA5.5开始，nvcc没有与MSVC的/MP等效的功能，因此.cu文件的任何构建并行性都需要来自调用NVCC的构建工具。如果您可以使用GNUMake构建(例如，在Cygwin下或在Linux/Unix/OSX系统上

amp Visual section noreferrer noopener c++visual-studio compilation cuda compilation-time

c++ - CUDA 零拷贝内存注意事项

我想弄清楚使用cudaHostAlloc(或cudaMallocHost？)是否合适。我正在尝试运行一个内核，其中我的输入数据多于GPU上可用的数据量。我可以在cudaMallocHost上拥有比GPU上更多的空间吗？如果没有，假设我分配了我需要的空间的1/4(这将适合GPU)，使用固定内存有什么好处吗？我基本上仍然需要从1/4大小的缓冲区复制到我的全大小malloc缓冲区，这可能并不比使用普通的cudaMalloc快，对吗？这个典型的使用场景是否适合使用cudaMallocHost:分配固定的主机内存(我们称之为“h_p”)用输入数据填充h_p-为h_p获取GPU上的设备指针使用该设

amp 注意事项 code section cudaMallocHost c++cuda

CUDA 应用程序的 C++ volatile 和运算符重载

我有一个A类，我重载了它的operator=。但是，我需要做这样的事情:volatileAx;Ay;x=y;编译时出现错误error:nooperator"="matchestheseoperandsoperandtypesare:volatileA=A如果我删除了volatile，它就是可编译的。有没有办法在不删除“volatile”(并且仍然保持volatile的行为)的情况下编译它？基本上这是一个CUDA程序，其中“x”是一个共享内存(所有线程都可以访问和修改它的值)。我希望它是“易变的”以避免编译器优化并重新使用该值而不是访问内存地址。关于这个问题的更多信息:一开始A只是一个原

运算符 amp volatile code section c++operator-overloading cuda

c++ - 如何以程序员愉快的方式使用 CUDA 常量内存？

我正在使用CUDA框架开发一个数字处理应用程序。我有一些所有线程都应该可以访问的静态数据，所以我把它放在常量内存中，如下所示:__device____constant__CaseParamsdeviceCaseParams;我使用调用cudaMemcpyToSymbol将这些参数从主机传输到设备:voidcopyMetaData(CaseParams*caseParams){cudaMemcpyToSymbol("deviceCaseParams",caseParams,sizeof(CaseParams));}有效。无论如何，似乎(通过反复试验，以及阅读网上的帖子)出于某种病态的原因

何以 amp section code cudaMemcpyToSymbol c++visual-studio header linker cuda

c++ - CUDA 设备代码支持哪些真正的 C++ 语言结构？

CUDA文档3.2版的附录D提到了CUDA设备代码中的C++支持。明确提到CUDA支持“计算能力2.x设备的类”。但是，我正在使用计算能力为1.1和1.3的设备，我可以使用此功能!例如，这段代码有效://classdefinitionvoluntarysimplifiedclassFoo{private:intx_;public:__device__Foo(){x_=42;}__device__voidbar(){returnx_;}};//kernelusingthepreviousclass__global__voidtestKernel(uint32_t*ddata){Foof;

amp 43 section li C++c++class cuda gpu gpgpu