gpu-constant-memory

服务器已经存在CUDA但无法使用GPU

记录一下我使用服务器期间遇到的问题以及解决方法（主要使用tensorflow）先介绍一下我本次遇到的问题：我在服务器上拥有一个独立的账号，我发现我的tensorflow无法调用GPU，先排查可能存在的问题终端输入nvcc-V结果如下：显示已经安装了11.8版本的CUDA 但是在python文件中调用importtensorflowastfprint(tf.test.is_gpu_available())结果显示为false 在终端输入echo$LD_LIBRARY_PATH结果为空，猜测是没有安装cudnn，以下是解决过程首先进入官网下载一个适配的cudnn版本，官网链接因为我的CUDA版本是

windows - 从 GPU 获取完整的桌面截图

我一直在使用WindowsAPI的BitBlt函数来执行屏幕抓取。但是也有很多缺点:DWM和Aero导致速度大幅下降(3毫秒-->35毫秒只是为了调用BitBlt)——要解决这个问题需要禁用Aero，我宁愿不这样做。屏幕闪烁，事物四处移动。必须将数据重新传输到GPU才能将数据作为纹理加载如果没有CAPTUREBLT标志，则无法捕获分层窗口。启用后，鼠标光标会在捕获时闪烁。这可能看起来像是一个小问题，但是当应用程序没有其他错误时，它会非常烦人。作为解决方法，我打算将分层窗口渲染为附加光标。我已经在使用OpenGL来显示和操作捕获的屏幕数据。BitBlt给我像素数据，将它加载到纹理中相对容

聊聊 GPU 产品选型那些事

随着人工智能的飞速崛起，随之而来的是算力需求的指数级增加，CPU已经不足以满足深度学习、大模型计算等场景的海量数据处理需求。GPU作为一种强大的计算工具，无论是高性能计算、图形渲染还是机器学习领域，在各个领域展现出了巨大的潜力和应用前景。说起GPU，绕不过的当然是NVIDIA这个公司了，现在市面上火热的A100/A800、H100等GPU全是他家的产品。但当你有业务需求或者个人需求，想要采购GPU的时候，你会发现各个型号的GPU令你眼花缭乱。这次我们就来聊聊NVIDIA的GPU产品，让你对各个型号的GPU有个深入的了解。GPU应用场景在选择GPU产品之前，首要任务是明确自己的应用需求。不同的应

windows - 有没有办法在多GPU环境中以编程方式选择渲染GPU？ ( Windows )

问题我有一个OpenGL应用程序，它将在具有多种multi-GPU配置(以及可能从XP到7的不同Windows版本)的计算机中运行。是否有一种通用方法来选择独立于GPU组合(例如NVIDIA+NVIDIA，NVIDIA+AMD，NVIDIA+Intel等)的将用作OpenGL渲染器的特定GPU？它必须是一种可以从应用程序代码中应用的解决方案，即直接在C++中或可以从应用程序中调用的脚本，而无需最终用户干预。下面是我为找到解决方案而进行的几种测试的详细信息，从非常特殊的情况开始，但是也许有一种解决方案可以在所有或大多数情况下使用。是否有任何可靠的方法来强制执行OpenGL渲染的GPU？任

巅峰对决：英伟达 V100、A100/800、H100/800 GPU 对比

近期，不论是国外的ChatGPT，还是国内诸多的大模型，让AIGC的市场一片爆火。而在AIGC的种种智能表现背后，均来自于堪称天文数字的算力支持。以ChatGPT为例，据微软高管透露，为ChatGPT提供算力支持的AI超级计算机，是微软在2019年投资10亿美元建造一台大型顶尖超级计算机，配备了数万个NVIDIAA100GPU，还配备了60多个数据中心总共部署了几十万个NVIDIAGPU辅助。相信大家对GPU已经不陌生了，它的主要作用是帮助运行训练和部署人工智能算法所涉及的无数计算。而现在市面上繁多的GPU型号令人眼花缭乱，我们今天就来看看常见的V100、A100、A800、H100、H800

今日思考（2） — 训练机器学习模型用GPU还是NUP更有优势（基于文心一言的回答）

前言深度学习用GPU，强化学习用NPU。1.训练深度学习模型，强化学习模型用NPU还是GPU更有优势在训练深度学习模型时，GPU相比NPU有优势。GPU拥有更高的访存速度和更高的浮点运算能力，因此更适合深度学习中的大量训练数据、大量矩阵、卷积运算。GPU虽然在并行计算能力上尽显优势，但并不能单独工作，需要CPU的协同处理，对于神经网络模型的构建和数据流的传递还是在CPU上进行。同时存在功耗高，体积大的问题。性能越高的GPU体积越大，功耗越高，价格也昂贵，对于一些小型设备、移动设备来说将无法使用。虽然NPU（NeuralNetworksProcessUnits）神经网络处

memory - Jruby、垃圾收集器、Redis

我有一个JrubyOnRails应用程序，它使用多个WS来收集数据。该应用程序处理数据并将其显示给用户，用户进行更改，然后将其发送回WS。这里的问题是我将所有内容都存储在使用内存存储的缓存(基于session)中。但是有时会在没有明确原因的情况下(至少对我而言)弹出此错误:ActionView::Template::Error(GCoverheadlimitexceeded)我阅读了我能找到的有关它的内容，显然这意味着垃圾收集器花费了很多时间来尝试释放内存，并且在这个方向上没有取得真正的进展。我的猜测是，由于所有内容都像缓存一样存储在内存中，因此GC会尝试释放它但无法做到并抛出此错误。

借助Python库CuPy，发掘GPU的威力

译者|布加迪审校|重楼CuPy简介CuPy是一个Python库，与NumPy和SciPy数组兼容，为GPU加速计算而设计。通过将NumPy换成CuPy语法，您可以在英伟达CUDA或AMDROCm平台上运行代码。这让您可以使用GPU加速执行与数组相关的任务，从而更快地处理更庞大的数组。只需换掉几行代码，就可以利用GPU的大规模并行处理能力来显著加快索引、规范化和矩阵乘法等数组操作。CuPy还支持访问低级CUDA功能。它允许使用RawKernels将ndarray传递给现有的CUDAC/C++程序，借助Streams简化性能，并允许直接调用CUDARuntimeAPI。安装CuPy您可以使用pip

memory - 关于redis如何使用momery的一些问题

我正在重写redis源码。下面:c->argv=zmalloc(sizeof(robj*)*c->multibulklen);...c->argv[c->argc++]=createStringObject(c->querybuf+pos,c->bulklen);部分代码解析语句的参数，例如:(setabc123)c->argv的内容为c->argv[0]=set,c->argv[1]=abc,c->argv[2]=123。将数据存储到字典中:intdictAdd(dict*d,void*key,void*val){dictEntry*entry=dictAddRaw(d,key);i

memory - 在 Redis 中，是一个大型排序集还是许多小型排序集具有更高的内存性能

我正在尝试使用排序集为Redis设计数据抽象。我的场景是，我要么在一个大的排序集中有大约6000万个键，要么在大约200万个小的排序集中每个可能有10个键。在任何一种情况下，我将使用的函数都是O(log(N)+M)，因此时间复杂度不是问题。我想知道的是内存影响的权衡是什么。拥有许多排序集会带来更大的灵active，但我不确定内存成本是否会成为问题。我知道Redis说它现在针对较小的排序集优化了内存使用，但我不清楚多少和多大尺寸太大了。最佳答案如果数据集增长超过单个主机内存限制，拥有许多小的排序集将有助于将负载分散到不同的redi