草庐IT

PYTORCH_CUDA_ALLOC_CONF

全部标签

c++ - 非确定性输出的 CUDA 调试程序

我正在我的Ubuntu10.1064位系统上调试我的基于CUDA4.0/Thrust的图像重建代码,我一直在尝试找出如何调试我的输出图像出现的运行时错误一些随机的“噪音”。我的代码中没有随机数生成器输出,所以我希望输出在运行之间保持一致,即使它是错误的。然而,这不是……我只是想知道是否有人有调试此类CUDA运行时错误的通用程序。我没有在我的cuda内核中使用任何共享内存。我努力避免任何涉及全局内存的竞争条件,但我可能会遗漏一些东西。我试过使用gpuocelot,但它在识别我的一些CUDA和CUSPARSE函数调用时遇到了问题。此外,我的代码通常可以正常工作。就在我更改此设置时,我得到了

c++ - 使用cuda创建共现矩阵

//Thisismykernelfunction__global__voidcreateSCM(Pixel*pixelMat,//imageintimgRows,//imagedimensionsintimgCols,int*matrizSCM,//CoocurrencematrixintnumNiveles,//coocurrencematrixlevels=256intdelta_R,//value={-1,0or1}intdelta_C)//value={-1,0or1}{inti=blockIdx.y*blockDim.y+threadIdx.y;intj=blockIdx.x

c++ - CUDA 推力 : copy from device to device

我使用标准CUDAmalloc在CUDA中分配了一个内存数组,并将其传递给函数,如下所示:voidMyClass::run(uchar4*input_data)我还有一个类成员,它是一个推力device_ptr声明为:thrust::device_ptrdata=thrust::device_malloc这里的num_pts是数组中值的个数,input_data指针保证是num_pts长。现在,我想将输入数组复制到thrust_device_ptr中。我看过推力文档,其中很多都在谈论从设备复制到主机内存,反之亦然。我想知道在推力上执行此设备到设备复制的最佳性能最佳方式是什么,还是我应该

c++ - 为维数增加(点数)的点云分配 CUDA 设备内存

我正在编写一个程序,我需要:对图像的每个像素进行测试如果测试结果为真,我必须向点云中添加一个点如果测试结果为假,什么都不做我已经在CPU端C++上编写了一个工作代码。现在我需要使用CUDA加速它。我的想法是让一些block/线程(我猜是每个像素一个线程)并行执行测试,如果测试结果为真,则让线程向云中添加一个点。我的麻烦来了:如果我事先不知道要插入到点云中的点数,我如何在设备内存中为点云分配空间(使用cudaMalloc或类似工具)?我是否必须分配固定数量的内存,然后在每次点云达到限制维度时增加它?还是有一种“动态”分配内存的方法? 最佳答案

c++ - unordered_map 在 VS10 中抛出 bad_alloc 但在 VS9 中没有,这是一个错误吗?

同时writingapost关于projecteuler's14thproblem我遇到了VC9和VC10之间的行为差​​异。以下代码在VC9中运行正常,但在VC10中std::unordered_map抛出bad_alloc异常。奇怪的是,如果我从异常中恢复过来,future的分配将会成功(容器的大小继续增长)。另外,如果我使用boost::unordered_map,它在两个编译器中都能正常工作。关于实际内存使用情况,我在一台有4GBRAM的机器上运行(正在使用1.7),VC9版本在完成任务之前获得了大约810MB的内存,而VC10版本在大约658MB时崩溃了。这是VC10中的错误

Python 基于pytorch从头写GPT模型;实现gpt实战

1.GPT简介        GPT(GenerativePre-trainedTransformer)模型是一种基于Transformer架构的生成式预训练模型,由OpenAI开发。它采用了无监督学习的方式进行预训练,然后通过微调适应特定的任务。GPT模型的结构由多层Transformer解码器组成,每个解码器由多头自注意力机制和前馈神经网络组成。自注意力机制能够对输入的序列进行编码,并捕捉序列中的上文关系,而前馈神经网络则负责对编码后的向量进行进一步的非线性转换。通过堆叠多个解码器,GPT模型能够学习到更加丰富的语义表示。        在预训练阶段,GPT模型采用了大规模的无标签文本数据

哪些RXJS运算符就像conf映射,但在启动下一个请求之前等待每个请求?

例如,假设我想打一些API调用。我要处理的API很容易竞争条件,因此,如果我同时更新服务器上的同一数据,则可能会丢失一些数据。因此,我想排队我的请求,然后启动一个,等待响应返回,然后再发出下一个请求。基本上,我需要诸如ConcatMap之类的东西,但是ConcatMap的问题是它同时启动了所有请求。我需要concatmap才能等待下一个请求,然后再发出下一个请求。我正在使用RXJS5。这是使用Angular2的Plunker,您可以在其中单击按钮。当您单击1秒按钮时,将创建可观察到的可观察到1秒钟后返回的。有2秒和3秒按钮。https://plnkr.co/edit/6f4jrvueqx8pj

c++ - cuda-memcheck,如何从地址到源代码?

我成功地使用cuda-memcheck获取有关错误内存访问的错误。使用-g-G编译cuda代码给出了很好的源位置,如下所示:=========Error:processdidn'tterminatesuccessfully=========Invalid__global__readofsize1=========at0x00000710in/some/path/somefile.cu:117:some_function=========bythread(0,14,0)inblock(1,16,0)=========Address0x00abac20isoutofbounds现在我尝试使

c++ - 封装 CUDA 内核的最佳方式是什么?

我正在尝试使CUDA项目尽可能接近OO设计。目前,我找到的解决方案是使用Struct来封装数据,对于每个需要一些GPU处理的方法,需要实现3个函数:对象将调用的方法。一个__全局__函数,它将调用该结构的__设备__方法。__device__结构内的方法。我举个例子。假设我需要实现一种方法来初始化结构内的缓冲区。它看起来像这样:structFoo{float*buffer;short2buffer_resolution_;short2block_size_;__device__initBuffer(){intx=blockIdx.x*blockDim.x+threadIdx.x;int

c++ - 修正贝塞尔函数的精确计算 - 在 CUDA 中使用 netlib Fortran 例程?

我正在处理在CUDA中准确计算零阶I0的修正贝塞尔函数的问题。很长一段时间以来,我一直根据论文使用有理切比雪夫近似J.M.布莱尔,“修正贝塞尔函数I_0(x)和I_1(x)的有理切比雪夫近似”,数学。计算机,卷。28,名词。126,第581-583页,1974年4月。与Matlab提供的结果相比,给出了1e-29数量级的平均误差。不幸的是,对于我正在处理的新应用程序来说,这种看似很高的准确性已经不够用了。Matlab使用由D.E.开发的Fortran例程。阿摩司Amos,D.E.,“复杂参数和非负阶贝塞尔函数的子程序包”,桑迪亚国家实验室报告,SAND85-1018,1985年5月。A