cuda-convnet_草庐IT

RuntimeError: CUDA error: CUBLAS_STATUS_EXECUTION_FAILED when calling `cublasSgemm( handle, opa, opb

今天跑一个项目时遇到了如下问题：RuntimeError:CUDAerror:CUBLAS_STATUS_EXECUTION_FAILEDwhencallingcublasSgemm(handle,opa,opb,m,n,k,&alpha,a,lda,b,ldb,&beta,c,ldc)简单查了一下，有说：1不同模块对device设置不同的；2cuda和pytorch版本不匹配；3shape维度不匹配简单分析了一下，我的pytorch用的还是1.4.0版本，cuda由于用的30系列，之前看帖子说30系列最好使用11.0以上版本的cuda，否则会报错。我也就没有尝试，直接安装了cuda11.6。

看这篇就够了——ubuntu系统中的cuda cudnn cudatookit及pytorch使用

一.基本概念1.1nvidia独立显卡独立显卡是指以独立板卡形式存在，可在具备显卡接口的主板上自由插拔的显卡。独立显卡具备单独的显存，不占用系统内存，而且技术上领先于集成显卡，能够提供更好的显示效果和运行性能。显卡作为电脑主机里的一个重要组成部分，对于喜欢玩游戏和从事专业图形设计的人来说显得非常重要。以前民用显卡图形芯片供应商主要包括ATI和NVIDIA两家。ubuntu需要自己安装nvidia驱动才能使用nvidia，安装nvidia驱动程序，可以让系统正确识别nVIDIA的图形显示卡,，进行2D/3D渲染，发挥显示卡应有的效能。1.2CUDA CUDA（ComputeUnif

3D Gaussian Splatting的cuda code总结

总结视频来源：https://www.youtube.com/watch?v=1buFrKUaqwM总结视频来源作者：AI葵3D高斯分布投影到图像上，每个像素投影到该像素上的高斯数不同，因此不能用pytorch并行化处理一、前向传播前向传播计算投影出来圆圈的半径计算圆圈覆盖的像素数（把画面分成了很多个方块，记录圆与哪些方块相连）计算每个高斯的前后顺序（alpha合成）计算每个像素的颜色1.preprocessCUDAdiff-gaussian-rasterization/cuda_rasterizer/forward.cu预处理CUDApreprocessCUDA函数用于解决第一个和第二个问题

ConvNet与Transformer谁更强？Meta评测4个领先视觉模型，LeCun转赞

如何根据特定需求选择视觉模型？ConvNet/ViT、supervised/CLIP模型，在ImageNet之外的指标上如何相互比较？来自MABZUAI和Meta的研究人员发表的最新研究，在「非标准」指标上全面比较了常见的视觉模型。论文地址：https://arxiv.org/pdf/2311.09215.pdf就连LeCun称赞道，非常酷的研究，比较了相似大小的ConvNext和VIT架构，无论是在监督模式下训练，还是使用CLIP方法进行训练，并在各种属性上进行了比较。超越ImageNet准确性计算机视觉模型格局，变得越来越多样复杂。从早期的ConvNets到VisionTransforme

超详细||深度学习环境搭建记录cuda+anaconda+pytorch+pycharm

本文用来记录windows系统上深度学习的环境搭建，目录如下一、安装显卡驱动首先为装有NVIDIAgpu的电脑安装显卡驱动，如果安装过了，或者想使用cpu的，可以跳过这一步。（其实这一步可以跳过，因为显卡驱动好想和深度学习环境没什么关系，保险起见还是安装上吧）1.去官网下载对应的显卡驱动：官方驱动|NVIDIA 2.完成下载，选择文件开始安装，直接解压在默认地址3.选择自定义安装选项，执行清洁安装（按情况选择）4.一直点下一步即可。二、安装VisualStudio可以跳过，但是很多深度学习环境需要用到，建议安装1.官网下载VisualStudioTools-免费安装Windows、Mac、

【Ubuntu20.04 CUDA11.1+Torch1.10+Anaconda 保姆级安装教程】

安装CUDA时需要和Torch版本对应起来，最好先去torch官网上确定要安装的torch版本对应的CUDA版本。在安装CUDA之前需要先确定是否已经安装驱动，打开终端输入nvidia-smi，若有输出，则表明驱动安装过，否则需要先安装驱动（驱动安装教程）一、CUDA11.1安装1、CUDA11.1下载先去CUDA官网上下载要安装的版本（CUDA11.1下载链接），依次选择Linux——》x86_64——》Ubuntu——》20.04——》runfile（local），根据自己的电脑配置选择即可打开终端，先复制第一条语句到终端下载CUDAwgethttps://developer.downlo

远程深度学习服务器配（ cuda + cudnn + nvidia-cuda-toolkit + docker + vscode）

目录一、远程服务器端配置1.宿主机基本环境配置安装ubuntu18.04安装nvidia显卡驱动安装cuda11.0.3安装cudnn2.配置docker安装docker安装NVIDIAContainerToolkit安装镜像创建容器二、内网穿透1.创建zeirtier账号2.在宿主机上安装zerotier3.在本地机上安装zerotier三、本地机端配置1.安装并配置VSCode2.安装Xshell7和Xftp7一、远程服务器端配置宿主机配置为：显卡1070ti，系统ubuntu18.04，cuda11.0.3，cudnn8.0.51.宿主机基本环境配置安装ubuntu18.04安装ubun

PyTorch + CUDA 版本匹配安装

目录1.问题描述2.调查和解决2.1初步调查2.2官网安装方法2.3如果还是不匹配呢？1.问题描述系统：Windows10，CUDA11.1.96 开始学习PyTorch。在用PyTorch进行一个深度学习训练时发现报告以下Warning信息：rank_zero_deprecation(GPUavailable:False,used:FalseTPUavailable:False,using:0TPUcoresIPUavailable:False,using:0IPUsHPUavailable:False,using:0HPUs 有点纳闷。用Tens

UniRepLKNet：用于音频、视频、点云、时间序列和图像识别的通用感知大内核ConvNet

摘要https://arxiv.org/abs/2311.15599大核卷积神经网络(ConvNets)最近受到了广泛的研究关注，但存在两个未解决的关键问题需要进一步研究。(1)现有大核ConvNets的架构在很大程度上遵循传统ConvNets或Transformers的设计原则，而大核ConvNets的架构设计仍未得到充分解决。(2)随着Transformer在多种模式下的主导地位，尚待研究的是，ConvNets是否在视觉以外的领域也具有强大的通用感知能力。本文从两个方面进行了贡献。(1)我们提出了设计大核ConvNets的四个架构指导方针，其核心是利用大核和小核的本质特征-大核可以看到宽广

ubuntu 18.04下安装Anaconda、Cuda、Cudnn、gpu-Pytorch

登录服务器后，首先查看下系统版本：cat/proc/version，我们这个服务器有点特殊是arm版本的，通过nvidia-smi查看服务器显卡配置,这意味着我们要安装的cuda版本最高不能超过11.4，那么我们这里选择一个比较稳定的版本cuda11.3。1. anaconda安装：由于cpu不是intel的，需要安装arm版本的anaconda那么肯定会问，为什么要安装它呢：Anaconda是一个打包的集合，官网，它里面预装好了conda、某个版本的python、众多packages、科学计算工具等等。Anaconda支持Linux,Mac,Windows系统，提供了包管理与环境管理