CUDA_TOOL

c++ - 在 CUDA 中编写内核函数的正确方法？

我正准备着手将我编写的程序转换为CUDA，以期提高处理速度。现在显然我的旧程序一个接一个地执行许多函数，我在主程序中将这些函数分开并按顺序调用每个函数。voidmain(){*initializationofvariables*function1()function2()function3()printresult;}这些函数本质上是串行的，因为funtion2依赖于funtion1的结果。好吧，现在我想把这些函数转换成内核，并并行运行函数中的任务。是不是很简单，并行重写每个函数，然后在我的主程序中，一个接一个地调用每个内核？这比需要的慢吗？例如，我是否可以让我的GPU直接执行下一个并

amp 编写 code function intermediate c++c cuda labview

c++ - 从主机访问 CUDA 全局设备变量

我想知道是否有官方来源，为什么以下内容有效:#includestructArray{intel[10000];};__device__ArraydevAr;voidtest(Array&ar=devAr){for(inti=0;i如果您尝试直接访问devAr但通过引用没有这样的警告(有充分的理由)，您会收到警告“无法在主机函数中直接读取__device__变量“devAr””。但在这两种情况下，都可以从主机访问变量。看来，该变量有一个主机实例。我需要知道的是:我可以认为这是理所当然的吗？其他显示指针值的测试用例:#include#include__device__intdevAr[2]

amp 43 code devAr device c++cuda global-variables

c++ - 是否有等同于 std::numeric_limits 的 CUDA？

我想确定最大值intCUDA内核中的值。不幸的是，我找不到任何类似于std::numeric_limits的东西对于CUDA。尝试使用::std函数导致错误:error:callinga__host__function("std::numeric_limits::max")froma__global__function("xyz_kernel")isnotallowedC:\cuda.cu(153)(col.10)有没有一种方法可以通过内核确定所需的值，或者我应该将其作为参数传递？最佳答案它存在，但不像std::numeric_

numeric_limits 同于 code section c++cuda

c++ - 可以使用 clang 将 C++17 与 CUDA 一起使用吗？

就使用nvcc而言，需要结合使用相应的gcc(我相信目前最大为5.4)。这当然会在某种程度上阻止人们在主机端使用C++17。因为C++17可以使用clang5和更高版本编译(参见here)，并且也可以编译cuda代码(参见here)，是不是是否可以同时使用C++17和CUDA(或者是否会出现问题，例如CUDA运行时)？最佳答案是的，正如您已经猜到的那样，CUDAclang前端在C++功能支持方面确实领先，甚至在设备代码方面也是如此。这已经是过去了，在NVCC之前引入了C++14特性，社区大多没有注意到。以这个C++17为例，不必

amp 43 code constexpr noreferrer c++cuda clang c++17

c++ - CUDA 中的稀疏矩阵 vector 乘法

我正在尝试在GPU上实现矩阵vector乘法(使用CUDA)。在我的C++代码(CPU)中，我将矩阵加载为密集矩阵，然后使用CUDA执行矩阵vector乘法。我还使用共享内存来提高性能。如何在知道我的矩阵是稀疏矩阵的情况下以高效方式加载矩阵？下面是我加载矩阵的C++函数:intreadMatrix(char*filename,float*&matrix,unsignedint*dim=NULL,intmajority=ROW_MAJOR){unsignedintw,h,x,y,num_entries;floatval;std::ifstreamfile(filename);if(fil

稀疏 amp dense double 34 c++cuda sparse-matrix matrix-multiplication

c++ - 使用套接字/内存而不是文件在 Cuda 中解码视频

我目前正在尝试使用cuda解码视频。我有名为cudaDecodeD3D9的cuda示例。此示例使用名为cuvidCreateVideoSource的方法，该方法采用指向源视频的文件指针。有没有办法让Cuda从内存/套接字/流中加载视频？最佳答案事实证明，我根本无法使用cuvidCreateVideoSource方法，而是可以通过调用cuvidParseVideoData将每一帧数据直接提供给cuda视频解析器。这是一个从文件中读取一帧并将其提供给cuda解析器的示例。该文件是我创建的，方法是将每个帧的大小写入文件，然后是帧数据。

套接字套接 section code unsigned c++sockets cuda

c++ - 在 CUDA 内核中放置一个 for 循环

在内核中放置一个for循环是个坏主意吗？或者这是一件很常见的事情？最佳答案将循环放入内核是很常见的。这并不意味着它总是一个好主意，但也不意味着它不是。确定如何有效地分配任务和数据以及利用相关并行性的一般问题是一个非常困难且Unresolved问题，尤其是在涉及CUDA时。正在进行积极的研究以有效地确定(即，不盲目地探索参数空间)如何为给定的内核实现最佳结果。有时，将循环放入内核中会很有意义。例如，对具有强数据独立性的大型常规数据结构的许多元素进行迭代计算非常适合包含循环的内核。其他时候，您可能决定让每个线程处理许多数据点，例如您

中放 amp section CUDA c++c

cuda 5.0支持的c++版本

我找不到CUDA5.0支持哪个版本/哪些c++概念。我在CUDA5.0RC随附的编程指南或引用指南中找不到任何信息。特别是我想知道CUDA5.0是否支持C++11。谁能告诉我在哪里可以找到这些信息？最佳答案显然，5.0RC中没有可用的C++11功能。nvcc仍然不理解gcc4.6标准包含中使用的C++11语法(参见ErrorwhileusingCUDAandC++11):$nvcc--versionnvcc:NVIDIA(R)CudacompilerdriverCopyright(c)2005-2012NVIDIACorpora

amp cuda section code stackoverflow c++c++11

c++ - 无法从静态初始化代码启动 CUDA 内核

我有一个在其构造函数中调用内核的类，如下所示:“标量场.h”#includevoidERROR_CHECK(cudaError_terr,constchar*msg){if(err!=cudaSuccess){std::cout“类A.h”#include"ScalarField.h"static__global__voidKernelSetScalarField(ScalarFieldv){intindex=threadIdx.x+blockIdx.x*blockDim.x;if(index>>(v);ERROR_CHECK(cudaGetLastError(),"Kernel");

amp 43 code 34 lt c++cuda global-variables static-initialization

c++ - 将常量参数传递给 CUDA 内核的最快(或最优雅)方式

假设我想要一个需要做很多事情的CUDA内核，但是有一些对所有内核都是不变的圆顶参数。此参数作为输入传递给主程序，因此它们不能在#DEFINE中定义。内核将运行多次(大约65K)并且它需要这些参数(和一些其他输入)来进行计算。我的问题是:将这些常量传递给内核的最快(或者最优雅)的方法是什么？常量是2或3个元素长度的float*或int*数组。他们大约有5~10个。玩具示例:2个常量const1和const2__global__voidkernelToyExample(intinputdata,?????){value=inputdata*const1[0]+const2[1]/const

amp 传递 code const const1 c++cuda

83 84 858687 88 89