草庐IT

Tensorflow-gpu

全部标签

深度学习工具-如何选择服务器和GPU

深度学习训练通常需要大量的计算。目前,GPU是深度学习最具成本效益的硬件加速器。与CPU相比,GPU更便宜,性能更高,通常超过一个数量级。此外,一台服务器可以支持多个GPU,高端服务器最多支持8个GPU。更典型的数字是工程工作站最多4个GPU,这是因为热量、冷却和电源需求会迅速增加,超出办公楼所能支持的范围。对于更大的部署,云计算(例如亚马逊的P3和G4实例)是一个更实用的解决方案。选择服务器通常不需要购买具有多个线程的高端CPU,因为大部分计算都发生在GPU上。这就是说,由于Python中的全局解释器锁(GIL),CPU的单线程性能在有4-8个GPU的情况下可能很重要。所有的条件都是一样的,

c++ - 在OpenCL中以编程方式选择最佳GPU的最佳方法是什么?

在我的笔记本电脑上,我有两张图形卡-IntelIris和NvidiaGeForceGT750M。我正在尝试使用OpenCL做一个简单的vector添加。我知道Nvidia卡的速度要快得多,并且可以做得更好。原则上,我可以在代码中放置if语句,以便在NVIDIA属性中查找VENDOR。但是我想要些优雅的东西。在OpenCLC/C++中以编程方式选择更好(更快)GPU的最佳方法是什么? 最佳答案 我开发了一个实时光线跟踪器(不仅仅是光线转换器),该跟踪器以编程方式选择了两个GPU和一个CPU,并实时渲染和平衡了这三个负载。这是我的方法。

c++ - TensorFlow 0.12 模型文件

我训练模型并使用以下方法保存它:saver=tf.train.Saver()saver.save(session,'./my_model_name')除了checkpoint文件,它只包含指向模型最近检查点的指针,这会在当前路径中创建以下3个文件:my_model_name.metamy_model_name.indexmy_model_name.data-00000-of-00001我想知道每个文件包含什么。我想用C++加载这个模型并运行推理。label_image示例使用ReadBinaryProto()从单个.bp文件加载模型。我想知道如何从这3个文件加载它。下面的C++等价物是

c++ - 如何优化 VBO/IBO 以最大化 GPU 缓存使用

我正在使用在CUDA上运行的MarchingCubes算法从体积数据生成网格。我尝试过保存网格并以3种方式渲染它。将一组粗略的三角形保存为连续的顶点数据数组。如果第一次通过,我估计大小,创建一个OpenGLVBO,将其映射到CUDA并按照以下格式将顶点数据写入其中V0x,V0y,V0z,N0x,N0y,N0z,V1x,V1y,V1z,N1x,N1y,N1z,...并使用glDrawArrays()绘制它。RedundantVerticesinVBO,RedundantVerticesperCube,NoIndices.从步骤1中获取网格,使用thrust::sort()和thrust:

python - 在 Tensorflow 中添加 GPU Op

我正尝试在this之后松散地向TensorFlow添加一个新操作文档。不同之处在于我正在尝试实现基于GPU的操作。我要添加的操作是来自here的cuda操作(cuda_op.py、cuda_op_kernel.cc、cuda_op_kernel.cu.cc)。我正在尝试在tensorflow之外编译这些并使用tf.load_op_library把它们拉进来。我做了一些更改,所以这是我的文件:cuda_op_kernel.cc#include"tensorflow/core/framework/op.h"#include"tensorflow/core/framework/shape_i

c++ - 如何在没有 CPU 拷贝的情况下上传 GPU 操作生成的 DXT5 压缩像素数据?

所以我想做的是:将使用任何算法(在我的例子中是AES-256)加密的文件加载到GPU内存(使用CUDA)。利用我们现在拥有的所有GPU并行能力解密文件,并将其保留在GPU内存中。现在告诉OpenGL(4.3)内存中有一个纹理需要从DDSDXT5中读取和解压。第3点是我有疑问的地方。由于要在OpenGL中加载压缩的DDSDXT5,必须使用压缩类型(GL_COMPRESSED_RGBA_S3TC_DXT5_EXT)和指向图像数据缓冲区的指针调用openGL::glCompressedTexImage[+2D|3D|2DARB...]。所以,简而言之->有没有办法将GPU内存中的纹理缓冲区地

python - 如何将 intel-mkl 与 tensorflow 一起使用

我看过很多关于将CPU与tensorflow结合使用的文档,但是,我没有GPU。我所拥有的是一个功能相当强大的CPU和一个5GB的英特尔数学内核,我希望这可以帮助我加快tensorflow的速度。有谁知道我如何“让”tensorflow使用intel-mlk? 最佳答案 从源代码构建TensorFlow1.2,并在配置步骤中启用对MKL的支持。Mac用户注意事项截至2017年12月,MKL仅适用于Linux。参见https://tensorflow.org/performance/performance_guide#optimizi

c++ - OpenGL:如何获取 GPU 使用百分比?

这可能吗? 最佳答案 不是真的,但是您可以使用供应商的实用程序获得不同的性能计数器,对于NVIDIA,您有NVPerfKit和NVPerfHUD。其他供应商也有类似的实用程序。 关于c++-OpenGL:如何获取GPU使用百分比?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/3778172/

【论文阅读】Automated Runtime-Aware Scheduling for Multi-Tenant DNN Inference on GPU

该论文发布在ICCAD’21会议。该会议是EDA领域的顶级会议。基本信息AuthorHardwareProblemPerspectiveAlgorithm/StrategyImprovment/AchievementFuxunYuGPUResourceunder-utilizationContentionSWSchedulingOperator-levelschedulingML-basedschedulingauto-searchReducedinferencemakespan论文作者FuxunYu是一名来自微软的研究员。主要研究的是大规模深度学习服务系统。上一次看它的论文是一片关于该领域的

C++ 等效于 Tensorflow 中的 python : tf. Graph.get_tensor_by_name()?

Python的C++等价物是什么:Tensorflow中的tf.Graph.get_tensor_by_name(name)?谢谢!这是我尝试运行的代码,但我得到一个空的输出:Statusstatus=NewSession(SessionOptions(),&session);//createnewsessionReadBinaryProto(tensorflow::Env::Default(),model,&graph_def);//readGraphsession->Create(graph_def);//addGraphtoTensorflowsessionstd::vector