nvidia-cuda-toolkit

《英伟达-本地AI》--NVIDIA Chat with RTX--部署问题：ValueError: When localhost is not accessible

部署英伟达本地AI：英伟达-本地AI》--NVIDIAChatwithRTX-简单本机部署出现;ValueError:Whenlocalhostisnotaccessible,ashareablelinkmustbecreated.Pleasesetshare=Trueorcheckyourproxysettingstoallowaccesstolocalhost.阿丹：在部署NVIDIAChatwithRTX的时候出现了一个比较奇怪的问题。但是解决掉了，这里做一些记录。描述：在成功运行了之后出现这个报错，尝试解决发现后台dos窗口出现这个报错RunningonlocalURL:ht

英伟 ValueError xff code xff0c 人工智能

c++ - CUDA 推力 : copy from device to device

我使用标准CUDAmalloc在CUDA中分配了一个内存数组，并将其传递给函数，如下所示:voidMyClass::run(uchar4*input_data)我还有一个类成员，它是一个推力device_ptr声明为:thrust::device_ptrdata=thrust::device_malloc这里的num_pts是数组中值的个数，input_data指针保证是num_pts长。现在，我想将输入数组复制到thrust_device_ptr中。我看过推力文档，其中很多都在谈论从设备复制到主机内存，反之亦然。我想知道在推力上执行此设备到设备复制的最佳性能最佳方式是什么，还是我应该

device 推力 thrust code c++cuda gpgpu

c++ - 为维数增加(点数)的点云分配 CUDA 设备内存

我正在编写一个程序，我需要:对图像的每个像素进行测试如果测试结果为真，我必须向点云中添加一个点如果测试结果为假，什么都不做我已经在CPU端C++上编写了一个工作代码。现在我需要使用CUDA加速它。我的想法是让一些block/线程(我猜是每个像素一个线程)并行执行测试，如果测试结果为真，则让线程向云中添加一个点。我的麻烦来了:如果我事先不知道要插入到点云中的点数，我如何在设备内存中为点云分配空间(使用cudaMalloc或类似工具)？我是否必须分配固定数量的内存，然后在每次点云达到限制维度时增加它？还是有一种“动态”分配内存的方法？最佳答案

点数 amp section noreferrer 样本数 c++memory-management cuda point-clouds

c++ - DirectX11 桌面复制不适用于 NVIDIA

我也在尝试使用DirectXdesktopduplicationAPI.我尝试从运行exmapleshttp://www.codeproject.com/Tips/1116253/Desktop-Screen-Capture-on-Windows-via-Windows-Desk从https://code.msdn.microsoft.com/windowsdesktop/Desktop-Duplication-Sample-da4c696a这两个都是使用DXGI进行屏幕捕获的示例。我的机器上有NVIDIAGeForceGTX1060和Windows10Pro。它具有Intel™Cor

amp DirectX code noreferrer Windows c++directx-11

c++ - cuda-memcheck，如何从地址到源代码？

我成功地使用cuda-memcheck获取有关错误内存访问的错误。使用-g-G编译cuda代码给出了很好的源位置，如下所示:=========Error:processdidn'tterminatesuccessfully=========Invalid__global__readofsize1=========at0x00000710in/some/path/somefile.cu:117:some_function=========bythread(0,14,0)inblock(1,16,0)=========Address0x00abac20isoutofbounds现在我尝试使

cuda-memcheck amp section code c++memory-management memory-leaks cuda memcheck

c++ - 封装 CUDA 内核的最佳方式是什么？

我正在尝试使CUDA项目尽可能接近OO设计。目前，我找到的解决方案是使用Struct来封装数据，对于每个需要一些GPU处理的方法，需要实现3个函数:对象将调用的方法。一个__全局__函数，它将调用该结构的__设备__方法。__device__结构内的方法。我举个例子。假设我需要实现一种方法来初始化结构内的缓冲区。它看起来像这样:structFoo{float*buffer;short2buffer_resolution_;short2block_size_;__device__initBuffer(){intx=blockIdx.x*blockDim.x+threadIdx.x;int

amp 43 buffer_resolution buffer resolution c++cuda

c++ - 修正贝塞尔函数的精确计算 - 在 CUDA 中使用 netlib Fortran 例程？

我正在处理在CUDA中准确计算零阶I0的修正贝塞尔函数的问题。很长一段时间以来，我一直根据论文使用有理切比雪夫近似J.M.布莱尔，“修正贝塞尔函数I_0(x)和I_1(x)的有理切比雪夫近似”，数学。计算机，卷。28，名词。126，第581-583页，1974年4月。与Matlab提供的结果相比，给出了1e-29数量级的平均误差。不幸的是，对于我正在处理的新应用程序来说，这种看似很高的准确性已经不够用了。Matlab使用由D.E.开发的Fortran例程。阿摩司Amos,D.E.，“复杂参数和非负阶贝塞尔函数的子程序包”，桑迪亚国家实验室报告，SAND85-1018，1985年5月。A

贝塞贝塞尔 Matlab c++cuda fortran

c++ - C/CUDA程序输出

以下是一个CUDA编程示例，它基本上是C语言，但其中包含NVidiaCUDA函数。我一直在尝试解释这个代码示例并弄清楚它试图做什么。我的问题是这个程序编译得很好，但是它需要什么参数？例如，这个CUDA程序正在linux模拟器中运行，但是在运行./program时它返回:用法:./程序号段错误程序输入参数是什么。谢谢。#include#include//#defineN100000__host__voidsaxpy_host(intlength,floatalpha,float*x,float*y){for(inti=0;i>>(N,alpha,dxp,dyp);//bringbackd

amp 43 float size section c++c cuda

c++ - 当数组大小大于 1,000,000 时，Cuda 未给出正确答案

我已经编写了一个简单的求和代码，在我将数组大小增加到100万之前它似乎工作得很好，这可能是问题所在。#defineBLOCK_SIZE128#defineARRAY_SIZE10000cudaError_taddWithCuda(constlong*input,long*output,inttotalBlocks,size_tsize);__global__voidsumKernel(constlong*input,long*output){inttid=threadIdx.x;intbid=blockDim.x*blockIdx.x;__shared__longdata[BLOCK_

amp 000 cudaStatus long output c++c visual-studio cuda

c++ - 在 CUDA/Thrust 中，如何在 for-each 操作期间访问 vector 元素的邻居？

我正在尝试使用CUDA中的Thrust库进行一些科学模拟，但我陷入了以下操作，这基本上是一个for-each循环:device_vectorIn(N);for-eachIn(x)inInOut(x)=some_calculation(In(x-1),In(x),In(x+1));end我已经查阅了stackoverflow.com并找到了一些类似的问题:Similarquestions1但似乎只有当some_calculation函数在2个参数之间完成时才可能使用变换迭代器，因为变换迭代器最多传递两个参数。那么，对于问题2:Similarquestions2讨论就这么结束了，还没有得出

何在 amp thrust float lt c++cuda

7 8 91011 12 13