草庐IT

TensorFlow-CUDA-cuDNN-GPU

全部标签

c++ - 如何在没有 CPU 拷贝的情况下上传 GPU 操作生成的 DXT5 压缩像素数据?

所以我想做的是:将使用任何算法(在我的例子中是AES-256)加密的文件加载到GPU内存(使用CUDA)。利用我们现在拥有的所有GPU并行能力解密文件,并将其保留在GPU内存中。现在告诉OpenGL(4.3)内存中有一个纹理需要从DDSDXT5中读取和解压。第3点是我有疑问的地方。由于要在OpenGL中加载压缩的DDSDXT5,必须使用压缩类型(GL_COMPRESSED_RGBA_S3TC_DXT5_EXT)和指向图像数据缓冲区的指针调用openGL::glCompressedTexImage[+2D|3D|2DARB...]。所以,简而言之->有没有办法将GPU内存中的纹理缓冲区地

python - 如何将 intel-mkl 与 tensorflow 一起使用

我看过很多关于将CPU与tensorflow结合使用的文档,但是,我没有GPU。我所拥有的是一个功能相当强大的CPU和一个5GB的英特尔数学内核,我希望这可以帮助我加快tensorflow的速度。有谁知道我如何“让”tensorflow使用intel-mlk? 最佳答案 从源代码构建TensorFlow1.2,并在配置步骤中启用对MKL的支持。Mac用户注意事项截至2017年12月,MKL仅适用于Linux。参见https://tensorflow.org/performance/performance_guide#optimizi

c++ - 为三角矩阵计算优化 CUDA 内核的执行

我正在开发我的第一个Cuda应用程序,我有一个“吞吐量低于预期”的内核,这似乎是目前最大的瓶颈。内核的任务是计算一个N×N大小的矩阵(DD),其中包含数据矩阵上所有元素之间的平方距离。数据矩阵(Y)的大小为NxD(以支持多维数据)并存储为行优先。来源:__global__voidcomputeSquaredEuclideanDistance(constfloat*__restrict__Y,float*__restrict__DD,constintN,constintD){intindex=blockIdx.x*blockDim.x+threadIdx.x;intstride=bloc

c++ - OpenGL:如何获取 GPU 使用百分比?

这可能吗? 最佳答案 不是真的,但是您可以使用供应商的实用程序获得不同的性能计数器,对于NVIDIA,您有NVPerfKit和NVPerfHUD。其他供应商也有类似的实用程序。 关于c++-OpenGL:如何获取GPU使用百分比?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/3778172/

【论文阅读】Automated Runtime-Aware Scheduling for Multi-Tenant DNN Inference on GPU

该论文发布在ICCAD’21会议。该会议是EDA领域的顶级会议。基本信息AuthorHardwareProblemPerspectiveAlgorithm/StrategyImprovment/AchievementFuxunYuGPUResourceunder-utilizationContentionSWSchedulingOperator-levelschedulingML-basedschedulingauto-searchReducedinferencemakespan论文作者FuxunYu是一名来自微软的研究员。主要研究的是大规模深度学习服务系统。上一次看它的论文是一片关于该领域的

C++ 等效于 Tensorflow 中的 python : tf. Graph.get_tensor_by_name()?

Python的C++等价物是什么:Tensorflow中的tf.Graph.get_tensor_by_name(name)?谢谢!这是我尝试运行的代码,但我得到一个空的输出:Statusstatus=NewSession(SessionOptions(),&session);//createnewsessionReadBinaryProto(tensorflow::Env::Default(),model,&graph_def);//readGraphsession->Create(graph_def);//addGraphtoTensorflowsessionstd::vector

c++ - 如何使用 OpenMP 提供的 GPU?

我正在尝试使用OpenMP让一些代码在GPU上运行,但我没有成功。在我的代码中,我使用for循环执行矩阵乘法:一次使用OpenMPpragma标记,一次不使用。(这样我就可以比较执行时间。)在第一个循环之后,我调用omp_get_num_devices()(这是我的主要测试,看看我是否真的连接到GPU。)无论我尝试了什么,omp_get_num_devices()总是返回0。我使用的计算机有两个NVIDIATeslaK40MGPU。CUDA7.0和CUDA7.5在计算机上作为模块提供,CUDA7.5模块通常处于事件状态。gcc4.9.3、5.1.0和7.1.0都可以作为模块使用,gcc

c++ - CUDA 初学者 - 在继续之前强制等待线程完成

我正在学习CUDA,目前我有类似的东西。__device__voiditerate_temperatures(intfieldSize,Atom*atoms){inttemperature=threadIdx.x+blockDim.x*blockIdx.x;nAtoms=pow(fieldSize,DIMENSION);iterate_atoms>>(atoms,nAtoms,temperature);}问题是,每个温度都需要最后一个的结果。我怎样才能强制每个block等待最后一个。谢谢! 最佳答案 只要调用__syncthread

c++ - 将 CUDA 添加到 ROS 包

我想在ros包中使用cuda。有人给我一个简单的例子吗?我试图用cuda函数构建一个静态库并将这个库添加到我的包中,但我总是得到一个链接错误:Undefinedreferencecuda...我已经构建了一个可执行文件而不是库并且它可以工作。请帮忙! 最佳答案 我自己找到了解决办法:CMakeLists.txt:cmake_minimum_required(VERSION2.8.3)PROJECT(beginner_tutorials)FIND_PACKAGE(CUDAREQUIRED)find_package(catkinREQU

r keras软件包:未找到python模块tensorflow.contrib.keras.python.keras

Windows7,Python3.6(64位),Rstudio1.0.143,R3.4.0即使有正确的途径,我也会收到此错误消息tensorflow包裹:>library(keras)>data切换到Python3.5.3无济于事:>data看答案我设法通过运行解决了问题pip3install--upgradetensorflowhttps://www.tensorflow.org/install/install_windows也许install_tensorflow()没有完成所有需要的事情。