草庐IT

AutoDL-GPU

全部标签

VSCode远程连接AutoDL服务器详细教程

一、VSCode配置SSH登录打开VSCode下载Remote-SSH插件远程连接,在AutoDL开机后可直接复制待连接的实例的账号和密码,复制账号时注意删除末尾的空格复制账号后连按两次enter键,右下角弹出下图后,点击Connect。右键点击待连接的实例→选择红框内容→点击Continue→输入密码(AutoDL中复制)连接成功后,点击下图红框即可看见终端信息每新换一台服务器连接需要从第二步开始完成上述操作;对于已连接过的服务器,下次连接需要确保该台服务器的账号信息在config文件里的最上方(经验之谈)。二、VSCode配置Python解释器点击扩展区,安装python,这里是安装在远程

关于安装 PyTorch-Lightning 的一些问题(GPU版)

官网地址:PyTorchPyTorch-Lightning安装PyTorch-Lightning1、不能直接使用pipinstallpytorch-lightning ,否则如下图会直接卸载掉你的torch而安装cpu版本的torch。Installingcollectedpackages:torch,lightning_fabricAttemptinguninstall:torchFoundexistinginstallation:torch1.9.1+cu111Uninstallingtorch-1.9.1+cu111:Successfullyuninstalledtorch-1.9.1+

关于安装 PyTorch-Lightning 的一些问题(GPU版)

官网地址:PyTorchPyTorch-Lightning安装PyTorch-Lightning1、不能直接使用pipinstallpytorch-lightning ,否则如下图会直接卸载掉你的torch而安装cpu版本的torch。Installingcollectedpackages:torch,lightning_fabricAttemptinguninstall:torchFoundexistinginstallation:torch1.9.1+cu111Uninstallingtorch-1.9.1+cu111:Successfullyuninstalledtorch-1.9.1+

AutoDL实时查看tensorboard曲线情况(结合官方文档使用)

参考链接AutoDL帮助文档-TensorBoard1.开机实例后,找到AutoPanel访问入口2.切换logs目录1、首先结束默认启动的TensorBoard进程,执行命令:ps-ef|greptensorboard|awk'{print$2}'|xargskill-92、在终端中执行以下命令启动TensorBoard(我这里的/root/autodl-nas/yoloair/runs/train/exp8是我自己切换成了一个log绝对路径,没有向官网说明里面那样将events文件拷贝到/root/tf-logs/目录下)这里我想多说一嘴,一定要先用上面的代码kill掉占用端口的进程,然后

gpu没有运行进程,但是显存一直占用

一般停止进程显存会释放,但是如果在不正常情况关闭进程,可能可能会出现显存不释放的情况:这时需要找到进程:fuser-v/dev/nvidia*可能出现bash:fuser:commandnotfound下载包,使用sudoapt-getinstallpsmisc这时再使用fuser-v/dev/nvidia*找到进程:/dev/nvidia-uvm:118241m119063m196506m/dev/nvidia0:119063m/dev/nvidia1:196506m/dev/nvidia8:118241m/dev/nvidiactl:118241m119063m196506m或者用fuse

Linux查看GPU性能

1、Linux查看显卡信息:lspci|grep-ivga2、使用nvidiaGPU可以:lspci|grep-invidia前边的序号“00:0f.0″是显卡的代号(这里是用的虚拟机);查看指定显卡的详细信息用以下指令:lspci-v-s00:0f.03、Linux查看Nvidia显卡信息及使用情况Nvidia自带一个命令行工具可以查看显存的使用情况:nvidia-smi如果要周期性的输出显卡的使用情况,可以用watch指令实现:watch-n10nvidia-smi命令行参数-n后边跟的是执行命令的周期,以s为单位[root@ncayu8847~]#lspci-v-s00:02.000:0

【Stable diffusion教程】AutoDL云部署超详细步骤说明【外婆都会】

1AutoDL云端部署操作流程1.1登录/注册官网:https://www.autodl.com/home,点击右上角登录/注册。此处我已经注册了如果你是学生的话,注册完之后,进入控制台,在右上角点一下学生认证,然后你就可以享受炼丹会员折扣啦。1.2账号充值登录后在控制台页面,因为抢主机的时候余额不足就没法提交,所以先得给账户充点钱才行,先充3-5块试试水。充值还可以开发票。1.3创建实例充值完成后,点击数字进入容器实例列表页面。进入容器实例页后,点击左上角租用新实例,进入实例创建页。介绍一下每个模块的功能说明:1、计费方式:按量计费(按照使用时长扣费)、包日(租用24小时)、包周(租用一周)

【pytorch】torch1.7.1安装、查看torch版本、GPU是否可用

在conda虚拟环境下安装torch==1.7.1+GPU版本本机环境CUDA11.0Python3.7安装torch1.7.1官网搜索确认需要下载的对应本机cuda的torch版本,使用在线下载即可,会直接安装好torch、torhvision、torchaudio。1、官网搜索对应cuda的版本2、安装命令condainstallpytorch==1.7.1torchvision==0.8.2torchaudio==0.7.2cudatoolkit=11.0-cpytorch查看安装版本importtorch#检测torch、cuda、cudnn版本print(torch.__versio

如何调用GPU训练模型【详细教程1】——CUDA和cuDNN的安装

目录一、前言二、安装CUDA、cuDNN和PyTorchCUDA的安装cuDNN的安装三、验证是否安装成功一、前言在进行深度学习模型训练时,可以使用CPU训练,但通常比较慢,也可以采用GPU进行加速训练,从而缩短训练时间。目前支持深度学习的显卡只有NIVDIA,AMD是不支持的,因此AMD显卡的用户不用再纠结于CUDA的安装了,直接安装CPU版本的PyTorch就好了。要使用GPU进行加速训练,要安装三个东西:CUDA、cuDNN、PyTorch。PyTorch大家都知道,是一个用于深度学习的开源库,当然这里用Tensorflow也可以,看个人喜好。而CUDA和cuDNN可能一开始会分不清,通

【已解决】nvidia-smi报错:NVIDIA-SMI has failed because it couldn’t communicate with the ... 阿里云GPU服务器

问题描述如题,起因是在阿里云GPU服务器上,使用原先正常运行的镜像生成了容器,但容器的显卡驱动出问题了,使用nvidia-smi命令会报错NVIDIA-SMIhasfailedbecauseitcouldn’tcommunicatewiththeNVIDIAdriver.尝试使用官网.run文件重新安装显卡驱动会报错ERROR:Unabletoloadthekernelmodule‘nvidia.ko’.Thishappensmostfrequentlywhenthiskernelmodulewasbuiltagainstthewrongorimproperlyconfiguredkernel