Cuda_草庐IT

c++ - 更小的指针......可能吗？ (没有较低规范的系统)

在这个2010paper[1]关于raycastingsparsevoxeloctrees(SVOs)(抱歉；本文需要一段时间才能加载)，第3节指出了一个有趣的内存设置，以节省体素数据的空间，它几乎总是非常大.他们指定了一个15位的相对指针，用一个1位的标志来指定是否需要远指针(如果体积数据太大，则设置标志，15位的指针被认为指向到辅助的远指针)。正在采取什么措施来实现这一目标？这与CUDA/GPU有关吗？它是通过某种自定义分配器在C++代码中完成的吗？如果有的话，这将如何在C++中完成？[1]高效稀疏体素八叉树:SamuliLaine、TeroKarras；英伟达研究

amp 43 section C++伟达 c++pointers memory cuda

memory - cudamemcpy 错误 :"the launch timed out and was terminated"

我的代码是计算pi的第n位的并行实现。当我完成内核并尝试将内存复制回主机时，我收到“启动超时并被终止”错误。我使用此代码对每个cudamalloc、cudamemcpy和内核启动进行错误检查。std::stringerror=cudaGetErrorString(cudaGetLastError());printf("%s\n",error);这些调用表明一切都很好，直到从内核返回后的第一个cudamemcpy调用。错误发生在“cudaMemcpy(avhost,avdev,size,cudaMemcpyDeviceToHost);”行中主要。任何帮助表示赞赏。#include#inc

cudamemcpy terminated int tid return memory timeout cuda

memory - cudamemcpy 错误 :"the launch timed out and was terminated"

我的代码是计算pi的第n位的并行实现。当我完成内核并尝试将内存复制回主机时，我收到“启动超时并被终止”错误。我使用此代码对每个cudamalloc、cudamemcpy和内核启动进行错误检查。std::stringerror=cudaGetErrorString(cudaGetLastError());printf("%s\n",error);这些调用表明一切都很好，直到从内核返回后的第一个cudamemcpy调用。错误发生在“cudaMemcpy(avhost,avdev,size,cudaMemcpyDeviceToHost);”行中主要。任何帮助表示赞赏。#include#inc

cudamemcpy terminated int tid return memory timeout cuda

memory - CUDA 常量内存分配是如何工作的？

我想了解一下如何分配常量内存(使用CUDA4.2)。我知道总可用的常量内存是64KB。但是这个内存是什么时候在设备上实际分配的呢？此限制适用于每个内核、cuda上下文还是整个应用程序？假设.cu文件中有多个内核，每个内核使用的常量内存都少于64K。但总的恒定内存使用量超过64K。是否可以按顺序调用这些内核？如果使用不同的流同时调用它们会发生什么？如果有一个大型CUDA动态库，其中包含许多内核，每个内核都使用不同数量的常量内存？如果有两个应用程序都需要一半以上的可用常量内存会怎样？第一个应用程序运行良好，但第二个应用程序何时会失败？在应用启动、cudaMemcpyToSymbol()调用

memory CUDA 0x constant code constants nvidia gpu-constant-memory

memory - CUDA 常量内存分配是如何工作的？

我想了解一下如何分配常量内存(使用CUDA4.2)。我知道总可用的常量内存是64KB。但是这个内存是什么时候在设备上实际分配的呢？此限制适用于每个内核、cuda上下文还是整个应用程序？假设.cu文件中有多个内核，每个内核使用的常量内存都少于64K。但总的恒定内存使用量超过64K。是否可以按顺序调用这些内核？如果使用不同的流同时调用它们会发生什么？如果有一个大型CUDA动态库，其中包含许多内核，每个内核都使用不同数量的常量内存？如果有两个应用程序都需要一半以上的可用常量内存会怎样？第一个应用程序运行良好，但第二个应用程序何时会失败？在应用启动、cudaMemcpyToSymbol()调用

memory CUDA 0x constant code constants nvidia gpu-constant-memory

memory - 解释 ptxas 的详细输出，第一部分

我正在尝试了解我的每个CUDA线程的资源使用情况，以用于手写内核。我使用nvcc-arch=sm_20-ptxas-options=-v将我的kernel.cu文件编译为kernel.o文件我得到了以下输出(通过c++filt):ptxasinfo:Compilingentryfunction'searchkernel(octree,int*,double,int,double*,double*,double*)'for'sm_20'ptxasinfo:Functionpropertiesforsearchkernel(octree,int*,double,int,double*,do

第一部 memory code li section cuda gpu-constant-memory ptxas

memory - 解释 ptxas 的详细输出，第一部分

我正在尝试了解我的每个CUDA线程的资源使用情况，以用于手写内核。我使用nvcc-arch=sm_20-ptxas-options=-v将我的kernel.cu文件编译为kernel.o文件我得到了以下输出(通过c++filt):ptxasinfo:Compilingentryfunction'searchkernel(octree,int*,double,int,double*,double*,double*)'for'sm_20'ptxasinfo:Functionpropertiesforsearchkernel(octree,int*,double,int,double*,do

第一部 memory code li section cuda gpu-constant-memory ptxas

memory - 如何将显存用作 RAM？

已结束。这个问题是off-topic.它目前不接受答案。想要改进这个问题？Updatethequestion所以它是on-topic堆栈溢出。关闭11年前。Improvethisquestion由于显卡提供大量RAM(0.5GiB到2GiB)，并且使用CUDA访问GPU并没有那么困难。,Stream更便携OpenCL我想知道是否可以将图形内存用作RAM。GrahicsRAM可能比realRAM有更大的延迟(来自CPU)，但它肯定比HDD快，因此它可能是缓存的最佳选择。是否可以直接访问图形内存，或者至少在自己的应用程序中使用薄内存管理层(而不是免费用于操作系统)？如果是这样，最好的方法是

显存用作 section noreferrer noopener memory memory-management cuda opencl

memory - 如何将显存用作 RAM？

已结束。这个问题是off-topic.它目前不接受答案。想要改进这个问题？Updatethequestion所以它是on-topic堆栈溢出。关闭11年前。Improvethisquestion由于显卡提供大量RAM(0.5GiB到2GiB)，并且使用CUDA访问GPU并没有那么困难。,Stream更便携OpenCL我想知道是否可以将图形内存用作RAM。GrahicsRAM可能比realRAM有更大的延迟(来自CPU)，但它肯定比HDD快，因此它可能是缓存的最佳选择。是否可以直接访问图形内存，或者至少在自己的应用程序中使用薄内存管理层(而不是免费用于操作系统)？如果是这样，最好的方法是

显存用作 section noreferrer noopener memory memory-management cuda opencl

windows10,CUDA、GPU 版本的torch安装

1、初期检查前期环境准备：anaconda、pycharm版本不作具体要求 windows10打开命令行1.1检查conda是否安装好 1.2检查pycharm是否安装好，直接看自己是否安装过就好Windows用户:win+R->输入cmd 然后点击“运行”->输入nvidia-smi 检查是否有显卡信息1.2CUDA版本如果你打不开nvidia-smi或者cuda查看不了,那么请官网安装下驱动和应该有的工具包.NVIDIAGeForce驱动程序-N卡驱动|NVIDIA https://www.nvidia.cn/geforce/drivers/安装c

windows 版本安装 https code 深度学习人工智能