草庐IT

CUDA_nppicom_LIBRARY

全部标签

c++ - 在 CUDA 线程中填充计数 'buckets'

在我的程序中,我通过体素网格跟踪大量粒子。粒子与体素的比例是任意的。在某个时刻,我需要知道哪些粒子位于哪些体素中,以及有多少粒子位于哪些体素中。具体来说,体素必须确切地知道其中包含哪些粒子。由于我不能在CUDA中使用任何类似std::vector的东西,我正在使用以下算法(在高级别):分配一个整数数组,其大小为体素数为所有粒子启动线程,确定每个粒子所在的体素,并在我的“桶”数组中增加适当的计数器分配一个大小为粒子数的指针数组计算每个体素在这个新数组中的偏移量(将其前面的体素中的粒子数相加)将粒子以有序的方式放置在数组中(我使用此数据来加速稍后的操作。速度的提高非常值得增加内存使用量)。

c++ - Qt Release build 给出 MSVC++ Runtime Library Error

在Debug模式下构建时,我有一个完美运行的应用程序(带有大约16个DLL的exe)。然而,一旦我切换到Release,获取exe和构建的所有DLL,所有必需的DLL从QtSDKbin复制过来,我就会遇到运行时错误。我应该如何排查发生的问题?这是一个普遍的问题吗?我没有任何入口点等,甚至无法从...开始。只是一个一般的运行时错误。我发现的唯一类似问题是here,但这是来自更旧版本的Qt。4.7.4只有一个bin文件夹。编辑1-除了创建我的MainWindow对象之外,我已经注释了我的main.cpp中的所有内容,以及我的MainWindow构造函数中的所有内容,所以它应该只是打开一个空

c++ - 我有两个 GPU,我怎么能只让其中一个执行特定的 CUDA 任务呢?

刚接触CUDA,但有一些时间花在计算上,我家里有geforces,办公室有tesla(同代)。在家里,我在同一台计算机上安装了两个gpus,一个是GK110(计算能力3.5),另一个是GF110(计算能力2.0),我更喜欢使用GK110仅用于计算任务,GF110用于显示,除非我告诉它进行计算,有没有办法通过驱动程序设置来完成,或者我仍然需要重写我的一些代码?另外,如果我没理解错的话,如果GK110的显示端口没有连接,那么烦人的windows超时检测即使计算时间很长也不会尝试重置它?顺便说一句,我的CUDA代码是用compute_35和compute20编译的,因此代码可以在两个GPU上

c++ - 将 MPI 与 c++11 和 CUDA 相结合

我正在编写分子动力学模拟,一些内核将使用CUDA进行计算。我从使用一些c++11功能的普通CPU实现开始我的代码。现在我必须添加一些CUDA代码,我必须使用不支持c++11功能的编译器(gcc在我的makefile中,我分别从所有cpp文件创建对象,最后将它们全部链接在一起。此外,我的代码以这样一种方式拆分,即可以使用“现代”编译器编译没有CUDA的部分,而使用旧编译器编译其余部分(利用CUDA)。我现在的问题是,这是否可以,或者我是否会/可能会遇到问题? 最佳答案 我不知道Cuda,但我知道的是将C++98和C++11目标文件链接

c++ - 改进 CUDA 中的异步执行

我目前正在编写一个程序,使用CUDAAPI在GPU上执行大型模拟。为了加速性能,我尝试同时运行我的内核,然后再次将结果异步复制到主机内存中。代码大致如下所示:#defineNSTREAMS8#defineBLOCKDIMX16#defineBLOCKDIMY16voiddomainUpdate(float*domain_cpu,//pointertodomainonhostfloat*domain_gpu,//pointertodomainondeviceconstunsignedintdimX,constunsignedintdimY,constunsignedintdimZ){di

c++ - CUDA 中的复杂算术

我经常在CUDA中使用复杂的算术,需要定义自己的实现,例如超越函数(sin、cos、exp,...)在复数上。我现在想通过编写一个包含此类函数的库来明确解决问题,以便考虑“大量”情况并避免在任何时候因新实现而陷入困境。我知道,对于他们中的一些人来说,从准确性和计算复杂性之间权衡的角度来看,编写代码可能并非易事。不过,我也知道C++有自己的complexmathlibrary.是否有可能为CUDA目的“回收”现有的C++解决方案? 最佳答案 可能你已经找到了答案,但这是我的答案:有可能“回收”sourcesforcomplexC++I

c++ - 我怎样才能让 Doxygen 知道 CUDA 内核调用?

我正在尝试使用Doxygen记录一个用CUDAC编写的项目。该文档工作正常。然而,调用者图不包括内核调用,如GPU_foo>>().例如,在这个简单的例子中:#include/*!*@briefglobalhellofoo*/__global__voidglobal_hello(void){printf("Hello\n");}/*!*@briefCPUhellofoo*/voidhello(void){printf("Hello\n");}/*!*@briefmain*/intmain(){hello();global_hello>>();return0;}使用相应的Doxyfile

Python + setuptools : distributing a pre-compiled shared library with boost. python 绑定(bind)

我有一个C++库(我们在下文中将其称为示例),我使用boost.python库为其编写了Python绑定(bind)。这个Python包装的库将称为pyExample。整个项目是使用CMake构建的,生成的Python包装库是一个名为libpyExample.so的文件。当我使用与libpyExample.so位于同一目录中的Python脚本中的Python绑定(bind)时,我只需编写:importlibpyExamplelibpyExample.hello_world()这会执行包装过程公开的hello_world()函数。我想做什么为了方便起见,我希望我的pyExample库可以

c++ - 从 python 使用 Opencv Cuda 函数

对于我的一个类(class)项目,我需要使用OpenCVsGPU库。我正在处理使用OpenCVpython的现有代码,我的工作是找到一种访问OpenCVCuda库的方法,因为目前没有可访问的Python绑定(bind)到OpenCV的各种CUDA模块。我现在非常需要的两个函数是cuda::warpPerspective和cv::cuda::DescriptorMatcher::knnMatch()。我尝试按照@ostrumvulpes在AccessingOpenCVCUDAFunctionsfromPython(NoPyCUDA)中的建议来实现warpPerspective它工作得很好

c++ - 在 CUDA 源文件上使用 clang-tidy

存在多种专为C/C++设计的静态分析工具,但它们对于测试CUDA源代码并不是特别有用。自clangversion6能够编译CUDA,我想使用clang-tidy检查我的选项,它似乎没有切换架构的选项。有没有办法让它工作?例如用于打开CUDA解析器的编译时开关、自定义检查形式的扩展,或者它可能是计划中的功能? 最佳答案 基于clang的工具的一个问题是它们不以与clang完全相同的方式解析文件。第一个问题是,与C/C++编译不同,CUDA编译对源码进行了多次编译。默认情况下,当您给它一个CUDA文件时,clang会创建多个编译作业,并