草庐IT

cuda_count

全部标签

c++ - CUDA 推力 : copy from device to device

我使用标准CUDAmalloc在CUDA中分配了一个内存数组,并将其传递给函数,如下所示:voidMyClass::run(uchar4*input_data)我还有一个类成员,它是一个推力device_ptr声明为:thrust::device_ptrdata=thrust::device_malloc这里的num_pts是数组中值的个数,input_data指针保证是num_pts长。现在,我想将输入数组复制到thrust_device_ptr中。我看过推力文档,其中很多都在谈论从设备复制到主机内存,反之亦然。我想知道在推力上执行此设备到设备复制的最佳性能最佳方式是什么,还是我应该

c++ - 为维数增加(点数)的点云分配 CUDA 设备内存

我正在编写一个程序,我需要:对图像的每个像素进行测试如果测试结果为真,我必须向点云中添加一个点如果测试结果为假,什么都不做我已经在CPU端C++上编写了一个工作代码。现在我需要使用CUDA加速它。我的想法是让一些block/线程(我猜是每个像素一个线程)并行执行测试,如果测试结果为真,则让线程向云中添加一个点。我的麻烦来了:如果我事先不知道要插入到点云中的点数,我如何在设备内存中为点云分配空间(使用cudaMalloc或类似工具)?我是否必须分配固定数量的内存,然后在每次点云达到限制维度时增加它?还是有一种“动态”分配内存的方法? 最佳答案

C#,二进制数的非0位数统计(Bits Count)的算法与源代码

计算一个十进制数的二进制表示有多少位1?1遍历法(递归或非递归)使用循环按位统计1的个数。2哈希查表法利用一个数组或哈希生成一张表,存储不同二进制编码对应的值为1的二进制位数,那么在使用时,只需要去进行查询,即可在O(1)的时间复杂度内得到结果。但是,此算法有个弊端,由于算法是采用空间换取时间的方法,当一个二进制数的位长超过一定限度时,对应的表也就会占据很大的空间,也就是说节约时间越多,花费的存储越多。另外此方法还会收到CPU缓存的限制,如果表太大,表在缓存的上下文切换也就越多,可能会导致性能没有想象中那么高。所以,为了解决此问题,一般情况下,采用适当的二进制位长度来建表,比如8位、16位,这

c++ - cuda-memcheck,如何从地址到源代码?

我成功地使用cuda-memcheck获取有关错误内存访问的错误。使用-g-G编译cuda代码给出了很好的源位置,如下所示:=========Error:processdidn'tterminatesuccessfully=========Invalid__global__readofsize1=========at0x00000710in/some/path/somefile.cu:117:some_function=========bythread(0,14,0)inblock(1,16,0)=========Address0x00abac20isoutofbounds现在我尝试使

c++ - 封装 CUDA 内核的最佳方式是什么?

我正在尝试使CUDA项目尽可能接近OO设计。目前,我找到的解决方案是使用Struct来封装数据,对于每个需要一些GPU处理的方法,需要实现3个函数:对象将调用的方法。一个__全局__函数,它将调用该结构的__设备__方法。__device__结构内的方法。我举个例子。假设我需要实现一种方法来初始化结构内的缓冲区。它看起来像这样:structFoo{float*buffer;short2buffer_resolution_;short2block_size_;__device__initBuffer(){intx=blockIdx.x*blockDim.x+threadIdx.x;int

c++ - gsl_vector 有 count_if 函数吗? C/C++

我正在使用gnu科学图书馆(GSL)。假设我有一个像这样的gsl_vector:70-658010-2这是一个包含正数、负数和零作为元素的vector。我想统计这个gsl_vector中非零元素或零元素的个数。我知道C++Vector有一个名为count_if的函数。但是我搜索了gsl_vector.h和gsl_blas.h,没有能与之匹敌的功能。我可以通过gsl_vector_get()评估它们来遍历所有元素,然后问if问题。intcounter=0;for(inti=0;i但是我想了将近一天,GSL中是否已经有这样一个效率更高的函数。或者gsl_array有一个count_if函数

c++ - 修正贝塞尔函数的精确计算 - 在 CUDA 中使用 netlib Fortran 例程?

我正在处理在CUDA中准确计算零阶I0的修正贝塞尔函数的问题。很长一段时间以来,我一直根据论文使用有理切比雪夫近似J.M.布莱尔,“修正贝塞尔函数I_0(x)和I_1(x)的有理切比雪夫近似”,数学。计算机,卷。28,名词。126,第581-583页,1974年4月。与Matlab提供的结果相比,给出了1e-29数量级的平均误差。不幸的是,对于我正在处理的新应用程序来说,这种看似很高的准确性已经不够用了。Matlab使用由D.E.开发的Fortran例程。阿摩司Amos,D.E.,“复杂参数和非负阶贝塞尔函数的子程序包”,桑迪亚国家实验室报告,SAND85-1018,1985年5月。A

c++ - C/CUDA程序输出

以下是一个CUDA编程示例,它基本上是C语言,但其中包含NVidiaCUDA函数。我一直在尝试解释这个代码示例并弄清楚它试图做什么。我的问题是这个程序编译得很好,但是它需要什么参数?例如,这个CUDA程序正在linux模拟器中运行,但是在运行./program时它返回:用法:./程序号段错误程序输入参数是什么。谢谢。#include#include//#defineN100000__host__voidsaxpy_host(intlength,floatalpha,float*x,float*y){for(inti=0;i>>(N,alpha,dxp,dyp);//bringbackd

c++ - 当数组大小大于 1,000,000 时,Cuda 未给出正确答案

我已经编写了一个简单的求和代码,在我将数组大小增加到100万之前它似乎工作得很好,这可能是问题所在。#defineBLOCK_SIZE128#defineARRAY_SIZE10000cudaError_taddWithCuda(constlong*input,long*output,inttotalBlocks,size_tsize);__global__voidsumKernel(constlong*input,long*output){inttid=threadIdx.x;intbid=blockDim.x*blockIdx.x;__shared__longdata[BLOCK_

c++ - 将本地结构传递给 count_if

我正在尝试将匿名结构传递给std::count_if,但编译失败。当我尝试编译时(使用g++4.5.3,不使用c++03或c++11扩展),我在fail()方法中遇到错误,但是pass()方法没有那个错误。Infunction‘voidfail()’:Test.cpp:34:24:error:nomatchingfunctionforcallto‘count_if(std::map::iterator,std::map::iterator,fail()::&)’如果我将结构设为命名结构,我会遇到类似的错误。我不明白为什么在函数外部和内部声明它应该有所不同。我错过了什么?#include