草庐IT

Tensorflow-gpu

全部标签

c++ - 从gpu特征描述符转换的opencv特征描述符的问题

我在使用openvc将GPU特征描述符矩阵转换为CPU特征描述符矩阵时遇到了一些问题,使用:voiddownloadDescriptors(constGpuMat&descriptorsGPU,vector&descriptors);如您所见,此方法将包含描述符的GpuMat转换为包含描述符的浮点vector。问题是,当我访问此vector的某些元素时,返回的值与0的预期间隔完全不同。至255.我制作了以下测试程序来比较提取时间和通过SURF_GPU获得的描述和SURF:clock_tstart;clock_tend;SURF_GPUsurfGPU;SURFsurf;Matimg1=i

c++ - 我有两个 GPU,我怎么能只让其中一个执行特定的 CUDA 任务呢?

刚接触CUDA,但有一些时间花在计算上,我家里有geforces,办公室有tesla(同代)。在家里,我在同一台计算机上安装了两个gpus,一个是GK110(计算能力3.5),另一个是GF110(计算能力2.0),我更喜欢使用GK110仅用于计算任务,GF110用于显示,除非我告诉它进行计算,有没有办法通过驱动程序设置来完成,或者我仍然需要重写我的一些代码?另外,如果我没理解错的话,如果GK110的显示端口没有连接,那么烦人的windows超时检测即使计算时间很长也不会尝试重置它?顺便说一句,我的CUDA代码是用compute_35和compute20编译的,因此代码可以在两个GPU上

c++ - 在 C++Amp 中减少 GPU-CPU 数据传输

我在尝试使用C++Amp优化我的应用程序时遇到了以下问题:数据传输。对我来说,将数据从CPU复制到GPU没有问题(因为我可以在应用程序的初始状态下执行此操作)。更糟糕的是,我需要快速访问C++Amp内核计算的结果,因此GPU和CPU之间的瓶颈很痛苦。我读到Windows8.1下的性能提升,但是我使用的是Windows7,我不打算更改它。我阅读了有关暂存阵列的信息,但我不知道它们如何帮助解决我的问题。我需要向主机返回一个浮点值,这似乎是最耗时的操作。floatSubset::reduction_cascade(unsignedelement_count,concurrency::arra

一文读懂「四大主流计算芯片 CPU、GPU、ASIC、FPGA」特点和场景

纵观人类历史,从结绳计数、木制计数到巴比伦的粘土板上的刻痕,再到中国古代的算盘,社会生产力的提高与当时所采用的计算工具密切相关。计算工具能力越强,就能大幅缩短人类解决复杂问题的时间,社会生产力水平自然就会越高。CPUCPU,全称CentralProcessingUnit,即中央处理器。现代电子计算机的发明是基于1940年代诞生的冯·诺依曼架构,这个架构主要由运算器、控制器、存储器、输入设备、输出设备等五个主要部分组成。特点:CPU具有通用性和灵活性,能够执行各种任务,如操作系统管理、软件运行和数据处理等。它擅长串行计算,即按照指定顺序执行任务。应用:广泛应用于个人电脑、服务器、移动设备等各种计

NVDIA各型号GPU性能与参数列表: 3090,4090,A40,A5000,V100性能参数对比

NVIDIA作为世界领先的图形处理器制造商,一直以来都以其强大的性能和高度可定制化的产品而闻名。其中包括了3090,4090,A40,A5000和V100等型号。下面对其逐一解释:1.NVIDIAGeForceRTX3090:3090是NVIDIARTX30系列中的旗舰级显卡,它搭载了Ampere架构的核心,具备24GBGDDR6X显存,能够提供卓越的游戏性能和绝佳的图形渲染能力。它拥有10496个CUDA核心、384位记忆总线和最大送风量可以达到和低于20%的性能差距。(用户可根据自己的需求选择)2.NVIDIAGeForceRTX4090:4090是NVIDIARTX40系列的超高性能显卡

python - TensorFlow tf.sparse_tensor_dense_matmul

我运行了一个小实验来对tf.sparse_tensor_dense_matmul操作进行基准测试。不幸的是,我对结果感到惊讶。我正在运行稀疏矩阵、密集vector乘法和变化稀疏矩阵的列数(递减)密集vector的行数(递减)稀疏矩阵的稀疏度(递增)在增加每次运行的稀疏性的同时,我减少了列。这意味着非零值的数量(nnz)始终保持不变(每行100个)。在测量计算matml操作所需的时间时,我希望它会保持不变(因为输出大小和nnz会发生变化)。我看到的是以下内容:我查看了C++代码,看是否能找出导致该结果的任何原因。不过,考虑到C++代码,我希望每次运行的时间相同。如果我对代码的理解正确,它

c++ - 使用 TensorFlow 训练模型和 C API 进行预测

我通过构建libtensorflow.so目标构建了CAPI。我想加载一个预训练模型并对其进行推理以进行预测。我被告知我可以通过包含“c_api.h”头文件(以及将该文件和“libtensorflow.so”复制到适当的位置)来做到这一点,但是,我没有运气在网上找到任何关于它的例子。我所能找到的只是使用Bazel构建系统的示例,而我想使用另一个构建系统并将TensorFlow用作库。有人可以帮我举例说明如何导入a)元图文件;b)一个protobuf图形文件加上一个检查点文件,来进行预测?与下面的Python文件等效并使用g++构建的C++?#!/usr/bin/envpythonimp

c++ - 用于 openmp 4.5 卸载到 (gpu) 设备的 nvptx gcc (9.0.0/trunk) 找不到 libgomp.spec

一段时间以来,我一直在尝试安装OpenMP4.5卸载到NvidiaGPU版本的gcc,但到目前为止没有成功,尽管我越来越接近了。这次我关注了thisscript,我做了两个更改:首先,我指定了gcc的主干版本而不是7.2,其次,根据github存储库,nvptx-newlib现在包含在nvptx-tools中,所以我删除了那部分脚本。为便于引用,原脚本为#!/bin/sh##BuildGCCwithsupportforoffloadingtoNVIDIAGPUs.#work_dir=$HOME/offload/wrkinstall_dir=$HOME/offload/install#L

c++ - 急切加载整个模型以估计 Tensorflow Serving 的内存消耗

随着预测的执行,TensorflowServing惰性初始化模型DAG中的节点。这使得很难估计保存整个模型所需的内存(RAM)。是否有标准方法强制TensorflowServing将模型完全初始化/加载到内存中? 最佳答案 您可以使用模型预热来强制将所有组件加载到内存中。[1][1]https://www.tensorflow.org/tfx/serving/saved_model_warmup 关于c++-急切加载整个模型以估计TensorflowServing的内存消耗,我们在Sta

如何使用TensorFlow和卷积神经网络检测和定位对象?

我的问题陈述如下:"使用TensorFlow和卷积神经网络的对象检测和定位"我做了什么?我使用Tflearn库从图像中的猫检测完成了我的工作。我成功地使用了25000张猫的图像训练了模型,并且其精确度良好。当前结果:我想做什么?如果我的图像由同一图像中的两个或两个以上的物体组成,例如猫和狗在一起,所以我的结果应该是“猫和狗”,除此之外,我还必须找到确切地点图像上的这两个对象(边界框)我遇到了许多高级图书馆darknet,SSD但无法获得背后的概念。请指导我解决问题的方法。注意:我正在使用监督学习技术。预期结果:看答案您有几种方法可以解决。最直接的方法是使用一些边界框建议算法(如选择性搜索)来获