cuda_ndarray

c++ - CUDA 运行时错误 4 - 从 CUDA 3.2 更新到 CUDA4 后出现

我最近尝试将我的系统从CUDA3.2更新到CUDA4.0这似乎不是一个很顺利的更新。首先，现在很多SDK示例都失败了。matrixMul和FFT问题等等都回来说错误太大，所以他们失败了。我写的代码似乎也有一些问题。我不得不追踪一些我以前从未遇到过的由NaN引起的错误，现在我也遇到了偶尔的内核启动失败。通常它说cudaSafeCall()RuntimeAPIerror4:unspecifiedlaunchfailure.或cutilCheckMsg()CUTILCUDAerror:fftshift()executionfailed:(4)unspecifiedlaunchfailure.

c++ - 如何使用 CUDA/Thrust 根据其中一个数组中的值对两个数组/vector 进行排序

这是一个关于编程的概念性问题。总而言之，我有两个数组/vector，我需要对一个数组/vector进行排序，其中的变化也在另一个数组中传播，因此如果我对arrayOne进行排序，对于排序中的每个交换-同样的事情也会发生在arrayTwo上。现在，我知道std::sort允许您定义一个比较函数(对于我假设的自定义对象)，我正在考虑定义一个以同时交换arrayTwo。所以我想要的是-使用CUDA根据其中一个vector中的值对两个vector进行排序。这就是我的不确定性上升的地方，基本上我想使用Thrust库来进行排序。它是否支持自定义比较函数的定义？如果是这样，我仍然没有弄清楚如何在ar

amp Thrust vector strong 自定 c++sorting cuda std

c++ - CUDA 和模板 : specialization declaration needed?

我有一个模板化包装函数，它调用在.cu文件中定义的内核(__global__)template__global__voidcompute_kernel(T*input,T*output,n){Mm;//computestuffusingm};templatevoidcompute(T*input,T*output,intn){//...computeblocks,threads,etc.compute_kernel>>(input,output,n);//...};和一个头文件包含在只有声明的主机代码中templatevoidcompute(T*input,T*output,intn)

specialization declaration compute code section c++cuda

c++ - 在 CUDA 线程中填充计数 'buckets'

在我的程序中，我通过体素网格跟踪大量粒子。粒子与体素的比例是任意的。在某个时刻，我需要知道哪些粒子位于哪些体素中，以及有多少粒子位于哪些体素中。具体来说，体素必须确切地知道其中包含哪些粒子。由于我不能在CUDA中使用任何类似std::vector的东西，我正在使用以下算法(在高级别):分配一个整数数组，其大小为体素数为所有粒子启动线程，确定每个粒子所在的体素，并在我的“桶”数组中增加适当的计数器分配一个大小为粒子数的指针数组计算每个体素在这个新数组中的偏移量(将其前面的体素中的粒子数相加)将粒子以有序的方式放置在数组中(我使用此数据来加速稍后的操作。速度的提高非常值得增加内存使用量)。

amp buckets section code c++algorithm cuda

c++ - 我有两个 GPU，我怎么能只让其中一个执行特定的 CUDA 任务呢？

刚接触CUDA，但有一些时间花在计算上，我家里有geforces，办公室有tesla(同代)。在家里，我在同一台计算机上安装了两个gpus，一个是GK110(计算能力3.5)，另一个是GF110(计算能力2.0)，我更喜欢使用GK110仅用于计算任务，GF110用于显示，除非我告诉它进行计算，有没有办法通过驱动程序设置来完成，或者我仍然需要重写我的一些代码？另外，如果我没理解错的话，如果GK110的显示端口没有连接，那么烦人的windows超时检测即使计算时间很长也不会尝试重置它？顺便说一句，我的CUDA代码是用compute_35和compute20编译的，因此代码可以在两个GPU上

amp 43 section 110 CUDA c++gpu nvidia

c++ - 将 MPI 与 c++11 和 CUDA 相结合

我正在编写分子动力学模拟，一些内核将使用CUDA进行计算。我从使用一些c++11功能的普通CPU实现开始我的代码。现在我必须添加一些CUDA代码，我必须使用不支持c++11功能的编译器(gcc在我的makefile中，我分别从所有cpp文件创建对象，最后将它们全部链接在一起。此外，我的代码以这样一种方式拆分，即可以使用“现代”编译器编译没有CUDA的部分，而使用旧编译器编译其余部分(利用CUDA)。我现在的问题是，这是否可以，或者我是否会/可能会遇到问题？最佳答案我不知道Cuda，但我知道的是将C++98和C++11目标文件链接

amp 43 code section double c++c++11 cuda mpi

c++ - 改进 CUDA 中的异步执行

我目前正在编写一个程序，使用CUDAAPI在GPU上执行大型模拟。为了加速性能，我尝试同时运行我的内核，然后再次将结果异步复制到主机内存中。代码大致如下所示:#defineNSTREAMS8#defineBLOCKDIMX16#defineBLOCKDIMY16voiddomainUpdate(float*domain_cpu,//pointertodomainonhostfloat*domain_gpu,//pointertodomainondeviceconstunsignedintdimX,constunsignedintdimY,constunsignedintdimZ){di

amp 改进 section domain NSTREAMS c++cuda gpu gpgpu

c++ - CUDA 中的复杂算术

我经常在CUDA中使用复杂的算术，需要定义自己的实现，例如超越函数(sin、cos、exp,...)在复数上。我现在想通过编写一个包含此类函数的库来明确解决问题，以便考虑“大量”情况并避免在任何时候因新实现而陷入困境。我知道，对于他们中的一些人来说，从准确性和计算复杂性之间权衡的角度来看，编写代码可能并非易事。不过，我也知道C++有自己的complexmathlibrary.是否有可能为CUDA目的“回收”现有的C++解决方案？最佳答案可能你已经找到了答案，但这是我的答案:有可能“回收”sourcesforcomplexC++I

amp 43 section C++complex c++cuda

c++ - 我怎样才能让 Doxygen 知道 CUDA 内核调用？

我正在尝试使用Doxygen记录一个用CUDAC编写的项目。该文档工作正常。然而，调用者图不包括内核调用，如GPU_foo>>().例如，在这个简单的例子中:#include/*!*@briefglobalhellofoo*/__global__voidglobal_hello(void){printf("Hello\n");}/*!*@briefCPUhellofoo*/voidhello(void){printf("Hello\n");}/*!*@briefmain*/intmain(){hello();global_hello>>();return0;}使用相应的Doxyfile

amp Doxygen section code hello c++c cuda

c++ - 从 python 使用 Opencv Cuda 函数

对于我的一个类(class)项目，我需要使用OpenCVsGPU库。我正在处理使用OpenCVpython的现有代码，我的工作是找到一种访问OpenCVCuda库的方法，因为目前没有可访问的Python绑定(bind)到OpenCV的各种CUDA模块。我现在非常需要的两个函数是cuda::warpPerspective和cv::cuda::DescriptorMatcher::knnMatch()。我尝试按照@ostrumvulpes在AccessingOpenCVCUDAFunctionsfromPython(NoPyCUDA)中的建议来实现warpPerspective它工作得很好

amp Opencv code cdef 39 c++cython

2 3 456 7 8