Pytorch-CUDA

Cuda异步计算并行编程设计和优化

基于Cuda开发GPUGPU程序时，最重要的仍然是内核的设计，这是Cuda性能优化的难点，提供了不少岗位，养活了一大批工程师。这里以一个相对简单的的求平方和算法为例，从编程和优化，调试几个维度，介绍利用cuda开发并行计算程序时的关注点。cudaAPINVIDIACUDA计算架构为开发者提供了三个层面的API，分别是CudaLib,CudaRT,和cudadriver。cudadriver是比较底层的API，用法复杂但是性能高，可以深度二次优化，对于研发能力强的用户可以在这个层次上做出高性能的计算方案出来，其次是最常用的cudaruntime，也就是我们常用的cudaAPI.最上层是cudal

Cuda 异步 img

PyTorch翻译官网教程-DEPLOYING PYTORCH IN PYTHON VIA A REST API WITH FLASK

官网链接DeployingPyTorchinPythonviaaRESTAPIwithFlask—PyTorchTutorials2.0.1+cu117documentation通过flask的restAPI在python中部署pytorch在本教程中，我们将使用Flask部署PyTorch模型，并开放用于模型推断的RESTAPI。特别是，我们将部署一个预训练的DenseNet121模型来检测图像。这是关于在生产环境中部署PyTorch模型的系列教程中的第一篇。使用Flask这种方式是迄今为止部署PyTorch模型的最简单方法，但它不适用于具有高性能要求的用例。如果你已经熟悉了TorchScr

翻译官 DEPLOYING xff0c 我们 xff0 python pytorch flask

安装 NVSwitch GPU 服务器的 cuda 驱动版本、nvidia-docker 指南

一，安装Cuda驱动可参考笔者之前写过的文章：升级GPU服务器cuda驱动版本指南如果出现如下报错，则需安装gcc、kernel-devel，请参考下面第二步安装gcc、kernel-devel。二，安装gcc、kernel-devel1，安装gcc和kernel-devel若直接执行如下命令安装，如果默认版本不一致，则会遇到如下图报错：yum-yinstallgcckernel-devel./NVIDIA-Linux-x86_64-515.86.01.run2，报错原因使用如下命令查看内核版本是否一致uname-rrpm-qkernel-devel正常结果应该是如下图所示，内核版一致，若不一

nvidia-docker NVSwitch 61 strong code 服务器 docker linux 深度学习驱动开发

Yolov5_DeepSort_Pytorch代码运行指南（dongdv95/yolov5）视频人群计数

整个代码分两个阶段第一阶段的识别是YOLOv5来实现的第二阶段是追踪，由DeepSort算法来实现。再次基础上进行了计数代码地址：https://github.com/dongdv95/yolov5/tree/master/Yolov5_DeepSort_Pytorch把代码git下来gitclonehttps://github.com/dongdv95/yolov5/tree/master/Yolov5_DeepSort_Pytorch2.配置环境，把所有依赖的包安装上作者要求python>=3.8;torch>=1.7,我的conda虚拟环境里有python=3.6和python=3.7的

Yolov5_DeepSort_Pytorch DeepSort style xff0c xff0 yolo 目标检测

一文搞懂深度信念网络！DBN概念介绍与Pytorch实战

目录一、概述1.1深度信念网络的概述1.2深度信念网络与其他深度学习模型的比较结构层次学习方式训练和优化应用领域1.3应用领域图像识别与处理自然语言处理推荐系统语音识别无监督学习与异常检测药物发现与生物信息学二、结构2.1受限玻尔兹曼机（RBM）结构与组成工作原理学习算法应用2.2DBN的结构和组成层次结构网络连接训练过程应用领域2.3训练和学习算法预训练微调优化方法评估和验证三、实战3.1DBN模型的构建定义RBM层构建DBN模型定义DBN的超参数3.2预训练RBM的逐层训练对比散度（CD）算法3.3微调监督训练微调训练模型验证和测试3.4应用分类或回归任务特征学习转移学习在线应用四、总结本

一文实战 span class token pytorch 人工智能神经网络深度学习机器学习

AttributeError: module ‘torch‘ has no attribute ‘cuda‘

看了下原因为没有装pytorch。（印象中是装了的不知道什么时候这台服务器没有了。。）解决方案：到pytorch官网上找到对应的cuda版本的pytorch安装即可PreviousPyTorchVersions|PyTorch比如我的是cuda10.2（使用nvcc-V命令查看）那么就是使用以下命令安装——condainstallpytorch==1.12.1torchvision==0.13.1torchaudio==0.12.1cudatoolkit=10.2-cpytorch

lsquo AttributeError pytorch xff python

【Pytorch项目实战】之ResNet系列：resnet18、resnet34、resnet50、resnet101、resnet152

文章目录一、项目思路二、源码下载（1）网络模型：`resnet.py`（2）附属代码1：`_internally_replaced_utils.py`（3）附属代码2：`utils.py`三、源码详解3.1、导入模块3.2、API接口：_resnet()3.2.1、调用预训练模型（1）torchvision.models简介（2）在线下载预训练模型3.2.2、ResNet网络（核心）（1）基础模块：BasicBlock（2）基础模块：Bottleneck（3）3x3卷积+1x1卷积四、模型实战（打印权重参数个数+打印网络模型）五、项目实战（CIFAR-10数据集分类）参考文献一、项目思路该项目

resnet 实战 span class token 人工智能深度学习 cnn 神经网络

《CUDA编程：基础与实践》读书笔记(2)：CUDA内存

1.全局内存核函数中的所有线程都能够访问全局内存(globalmemory)。全局内存的容量是所有设备内存中最大的，但由于它没有放在GPU芯片内部，因此具有相对较高的延迟和较低的访问速度，cudaMalloc分配的就是全局内存。此外，当处理逻辑上的二维或者三维问题时，还可以使用cudaMallocPitch和cudaMalloc3D分配内存，用cudaMemcpy2D和cudaMemcpy3D复制数据，释放时依然使用cudaFree函数。除了上述动态分配的全局内存外，CUDA也允许使用静态全局内存，其所占内存数量是在编译期确定的。静态全局内存变量必须在所有主机与设备函数外部定义，从其定义之处开

CUDA 内存全局字节 C++

linux用户下更换cuda版本及部分细节

linux用户下更换cuda版本及部分细节安装cuda进入cuda版本选择页面选择对应版本，这里以cuda11.3.0为例，选择对应的系统信息，选择runfile(local)1.运行代码进行下载wgethttps://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run2.运行安装代码sudoshcuda_11.3.0_465.19.01_linux.run取消第一个Driver部分的安装，方向键上下进行选择，回车键勾选或取消，取消原因参考文章，选择

更换细节 xff xff0c cuda linux 服务器深度学习 pytorch

在ubuntu上安装多个版本的CUDA，并且可以随时切换

前言实验室工作站被多人使用导致需求不同的cuda版本，一直没找到一个完全完整靠谱的教程，这是我参考几个博客完成测试的全过程记录，方便以后操作，无任何商业用途，如有侵权，请联系删除。注：其中好多摘录自其他博客，我在操作过程中大部分未保存结果，只能用其他博客中我认为合适的图片等代替一、确定安装的软件版本安装前需先确定显卡驱动、CUDA、cuDNN等之间的对应关系。由于我的帐户没有管理员权限，不能安装显卡驱动，只能根据现有驱动的版本来选择CUDA版本，输入指令cat/proc/driver/nvidia/version查看当前服务器版本号文中目录结构解释如下：用户名为zb；目录/home/zb/cu

ubuntu CUDA xff xff0c xff0 linux pytorch

80 81 828384 85 86