草庐IT

TensorFlow-CUDA-cuDNN-GPU

全部标签

如何使用TensorFlow和卷积神经网络检测和定位对象?

我的问题陈述如下:"使用TensorFlow和卷积神经网络的对象检测和定位"我做了什么?我使用Tflearn库从图像中的猫检测完成了我的工作。我成功地使用了25000张猫的图像训练了模型,并且其精确度良好。当前结果:我想做什么?如果我的图像由同一图像中的两个或两个以上的物体组成,例如猫和狗在一起,所以我的结果应该是“猫和狗”,除此之外,我还必须找到确切地点图像上的这两个对象(边界框)我遇到了许多高级图书馆darknet,SSD但无法获得背后的概念。请指导我解决问题的方法。注意:我正在使用监督学习技术。预期结果:看答案您有几种方法可以解决。最直接的方法是使用一些边界框建议算法(如选择性搜索)来获

MacOS安装Miniforge、Tensorflow、Jupyter Lab等(2024年最新)

大家好,我是邵奈一,一个不务正业的程序猿、正儿八经的斜杠青年。1、世人称我为:被代码耽误的诗人、没天赋的书法家、五音不全的歌手、专业跑龙套演员、不合格的运动员…2、这几年,我整理了很多IT技术相关的教程给大家,爱生活、爱分享。3、如果您觉得文章有用,请收藏,转发,评论,并关注我,谢谢!博客导航跳转(请收藏):邵奈一的技术博客导航|公众号|微信|CSDN|掘金|51CTO|简书|微博|教程目录0x00教程内容0x01下载安装并配置Miniforge1.下载并安装Miniforge2.配置Miniforge0x02安装Tensorflow1.创建虚拟环境2.安装Tensorflow3.测试Tens

c++ - CUDA 推力 : copy from device to device

我使用标准CUDAmalloc在CUDA中分配了一个内存数组,并将其传递给函数,如下所示:voidMyClass::run(uchar4*input_data)我还有一个类成员,它是一个推力device_ptr声明为:thrust::device_ptrdata=thrust::device_malloc这里的num_pts是数组中值的个数,input_data指针保证是num_pts长。现在,我想将输入数组复制到thrust_device_ptr中。我看过推力文档,其中很多都在谈论从设备复制到主机内存,反之亦然。我想知道在推力上执行此设备到设备复制的最佳性能最佳方式是什么,还是我应该

c++ - 为维数增加(点数)的点云分配 CUDA 设备内存

我正在编写一个程序,我需要:对图像的每个像素进行测试如果测试结果为真,我必须向点云中添加一个点如果测试结果为假,什么都不做我已经在CPU端C++上编写了一个工作代码。现在我需要使用CUDA加速它。我的想法是让一些block/线程(我猜是每个像素一个线程)并行执行测试,如果测试结果为真,则让线程向云中添加一个点。我的麻烦来了:如果我事先不知道要插入到点云中的点数,我如何在设备内存中为点云分配空间(使用cudaMalloc或类似工具)?我是否必须分配固定数量的内存,然后在每次点云达到限制维度时增加它?还是有一种“动态”分配内存的方法? 最佳答案

c++ - Tensorflow:与共享库的动态链接

我正在做一个使用Tensorflow的共享库。现在我将它作为子项目放在Tensorflow的源代码树中,并带有以下BUILD文件:cc_binary(name="recognizer.so",srcs=glob(["recognizer.cpp"]),linkshared=1,deps=["//tensorflow:сore"],)一切都链接在一起,但我最终得到了一个大小约为94兆字节的共享库,并且不依赖于libtensorflow_cc.so。实际上甚至没有构建libtensorflow_cc.so这样的二进制文件。有一个目标//tensorflow:libtensorflow_cc

c++ - 如何为 Windows 独立应用程序部署经过 Tensorflow 训练的模型进行推理

我想在Windows独立桌面应用程序中使用经过Tensorflow训练的模型。我只需要执行预测,我就可以使用TensorflowPythonAPI训练模型。推荐的方法是什么?我知道有一个C++API,但是编译它真的很难,尤其是在Windows上。我可以找到任何适用于Windows的预构建C++Tensorflow二进制文件吗?有没有一种简单的方法可以将带有Tensorflow的Python作为Windows安装程序的先决条件来分发?我可以在其他技术中导入Tensorflow模型并将其用于推理吗?OpenCvDNN模块有一个从Tensorflow导入数据的功能,但我知道它有很多限制,我无

单GPU就能压缩模型,性能不变参数少25%!微软提出模型稀疏化新方法

众所周知,对于大语言模型来说,规模越大,所需的算力越大,自然占用的资源也就越多。研究人员于是乎把目光转到了这片领域,即模型的稀疏化(Sparsification)。今天要介绍的SliceGPT,则可以实现模型的事后稀疏。也就是说,在一个模型训练完了以后再进行稀疏化操作。该模型由微软研究院和苏黎世联邦理工学院联合发表在了arXiv上。目前主流的稀疏化技术面临着挺多挑战和困难。比方说,需要额外的数据结构,而且在当下的硬件条件下,速度有限。SliceGPT就能很好的解决这些问题——它能用一个较小的矩阵来替换每个权重矩阵,从而降低网络的嵌入维度。而实际结果也是非常不错的,在LLAMA-270B、OPT

SoftMax用于基本逻辑分类器 - TensorFlow

我正在研究基本的神经网络分类器。目的是基于3个标签的数据训练NN,然后预测值。数据原理图如下:我的代码给出了垃圾答案。有什么建议么?当前代码如下:importtensorflowastfimportnumpyasnp#increasedthenumberofepochepochs=100000#Foreq100tiony=b+0.1,sampledatabelowmyImportedDatax1_np=np.array([[.1],[.1],[.2],[.2],[.3],[.3],[.4],[.4],[.1],[.1],[.2],[.2],],dtype=float)myImportedDat

c++ - cuda-memcheck,如何从地址到源代码?

我成功地使用cuda-memcheck获取有关错误内存访问的错误。使用-g-G编译cuda代码给出了很好的源位置,如下所示:=========Error:processdidn'tterminatesuccessfully=========Invalid__global__readofsize1=========at0x00000710in/some/path/somefile.cu:117:some_function=========bythread(0,14,0)inblock(1,16,0)=========Address0x00abac20isoutofbounds现在我尝试使

c++ - 封装 CUDA 内核的最佳方式是什么?

我正在尝试使CUDA项目尽可能接近OO设计。目前,我找到的解决方案是使用Struct来封装数据,对于每个需要一些GPU处理的方法,需要实现3个函数:对象将调用的方法。一个__全局__函数,它将调用该结构的__设备__方法。__device__结构内的方法。我举个例子。假设我需要实现一种方法来初始化结构内的缓冲区。它看起来像这样:structFoo{float*buffer;short2buffer_resolution_;short2block_size_;__device__initBuffer(){intx=blockIdx.x*blockDim.x+threadIdx.x;int