草庐IT

CUDA_HOME

全部标签

c++ - OpenCL 或 CUDA 调用的开销?

我正在编写一个函数来处理很多BLASgemv操作。我希望能够在GPU上执行此操作,并且我已尝试使用cuBlas。我的问题是我的矩阵和vector相当小,100x100矩阵和100vector。与CPU相比,CuBlas需要很长时间,我知道为什么,CPU上的快速缓存和调用GPU的大量开销混合在一起。因此,我正在尝试找出一种聪明的方法来测量将调用传递给GPU所需的时间。这是CUDA设置调用并将其发送到图形处理器所花费的时间——不包括执行矩阵vector乘法实际花费的时间。我该怎么做? 最佳答案 更新:以下结果是针对2005硬件(nVid

c++ - Cuda 工具包目录不存在

我对cuda4.1和visualstudio2010有疑问。当我想编译.cu文件时,出现以下错误:C:\ProgramFiles(x86)\MSBuild\Microsoft.Cpp\v4.0\BuildCustomizations\CUDA4.1.targets(249,9):error:TheCUDAToolkitdirectory''doesnotexist.PleaseverifytheCUDAToolkitisinstalledproperlyordefinetheCudaToolkitDirpropertytoresolvethiserror.我安装了干净的Windows7

c++ - cuda 共享内存 - 结果不一致

我正在尝试进行并行缩减以对CUDA中的数组求和。目前我传递了一个数组,用于存储每个block中元素的总和。这是我的代码:#include#include#include#include#include#include#defineTHREADS_PER_BLOCK256#defineCUDA_ERROR_CHECK(ans){gpuAssert((ans),__FILE__,__LINE__);}usingnamespacestd;inlinevoidgpuAssert(cudaError_tcode,char*file,intline,boolabort=true){if(code!

支持CUDA运算的显卡算力表

GPUssupportedSupportedCUDAlevelofGPUandcard.CUDASDK1.0supportforcomputecapability1.0–1.1(TeslaCUDASDK1.1supportforcomputecapability1.0–1.1+x(Tesla)CUDASDK2.0supportforcomputecapability1.0–1.1+x(Tesla)CUDASDK2.1–2.3.1supportforcomputecapability1.0–1.3(Tesla)CUDASDK3.0–3.1supportforcomputecapability1.

c++ - 与 cuda 相关的 libstdc++.so.6 的链接器问题

今天我在链接我编译的cuda东西时遇到了问题。我有一个最新的debian测试w/2.6.32-3-amd64。我整天都在写我的代码。不时编译。没问题。但是在对代码进行了较小的更改后,我收到了以下错误:gcc-opaCUDA.ohistogram256.ohistogram64.omain.o-lrt-lm-lcudart-I.-I/data/cuda/include-I/data/cuda/C/common/inc-L/data/cuda/lib64/usr/bin/ld:main.o:undefinedreferencetosymbol'std::basic_ifstream>::c

c++ - 带有 Visual Studio 和 cmake 的 CUDA

我正在使用CUDA8.0和VisualStudio2013。到目前为止,我一直在使用CMake构建我的VS-Solutions,并且运行良好。通常使用以下代码片段构建cuda项目:FIND_PACKAGE(CUDAREQUIRED)INCLUDE_DIRECTORIES(${CUDA_INCLUDE_DIRS})link_directories(${CUDA_INCLUDE_DIRS}/../lib/x64)CUDA项目正在运行,编译和运行没有任何问题。但是我在项目属性中缺少CUDAC/C++字段。当我直接在VS中创建一个VS-Solution时,我可以选择NVIDIA/CUDA8.0

torch.cuda常用指令

CUDA(ComputeUnifiedDeviceArchitecture),是显卡厂商NVIDIA推出的运算平台。CUDA™是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎。开发人员可以使用C语言来为CUDA™架构编写程序,所编写出的程序可以在支持CUDA™的处理器上以超高性能运行。Pytorch通过cuda指令允许让模型、数据加载到GPU上,常用指令如下:1.torch.cuda.is_available()cuda是否可用 importtorchprint(torch.cuda.is_ava

c++ - 编译cuda文件报错: "runtime library" mismatch value 'MDd_DynamicDebug' doesn't match value 'MTd_StaticDebug' in vectorAddition_cuda. o

我尝试在Qt5.2和MSVC2012环境下编译一个cuda文件。在开始我的项目之前,我仔细阅读了问题并回复:CompilingCudacodeinQtCreatoronWindows.但是即使我简单地复制代码并在qt中生成2个文件,仍然会弹出一些错误/main.cpp/vectorAddition.cu错误是:errorLNK2038:mismatchdetectedfor'RuntimeLibrary':value'MDd_DynamicDebug'doesn'tmatchvalue'MTd_StaticDebug'invectorAddition_cuda.o我完全不知道如何修复这

c++ - 为三角矩阵计算优化 CUDA 内核的执行

我正在开发我的第一个Cuda应用程序,我有一个“吞吐量低于预期”的内核,这似乎是目前最大的瓶颈。内核的任务是计算一个N×N大小的矩阵(DD),其中包含数据矩阵上所有元素之间的平方距离。数据矩阵(Y)的大小为NxD(以支持多维数据)并存储为行优先。来源:__global__voidcomputeSquaredEuclideanDistance(constfloat*__restrict__Y,float*__restrict__DD,constintN,constintD){intindex=blockIdx.x*blockDim.x+threadIdx.x;intstride=bloc

c++ - CUDA 初学者 - 在继续之前强制等待线程完成

我正在学习CUDA,目前我有类似的东西。__device__voiditerate_temperatures(intfieldSize,Atom*atoms){inttemperature=threadIdx.x+blockDim.x*blockIdx.x;nAtoms=pow(fieldSize,DIMENSION);iterate_atoms>>(atoms,nAtoms,temperature);}问题是,每个温度都需要最后一个的结果。我怎样才能强制每个block等待最后一个。谢谢! 最佳答案 只要调用__syncthread