草庐IT

【Linux】在一台机器上同时安装多个版本的CUDA(切换CUDA版本)

TangPlusHPC 2023-10-10 原文

目录


一、前言

  • 正如题目所言,最近笔者要跑一个TensorFlow搭建的模型,等我按照要求将对应版本的TensorFlowKeras安装好之后,发现训练模型巨慢,GPU显存只用了一点点而且利用率一直是零,而且提示找不到一些库,提示如下。
2022-06-10 13:06:14.299058: I tensorflow/stream_executor/platform/default/dso_loader.cc:53] Could not dlopen library 'libcudart.so.10.0'; dlerror: libcudart.so.10.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda-10.0/lib64:/usr/local/cuda-10.0/extras/CUPTI/lib64
2022-06-10 13:06:14.299110: I tensorflow/stream_executor/platform/default/dso_loader.cc:53] Could not dlopen library 'libcublas.so.10.0'; dlerror: libcublas.so.10.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda-10.0/lib64:/usr/local/cuda-10.0/extras/CUPTI/lib64
2022-06-10 13:06:14.299155: I tensorflow/stream_executor/platform/default/dso_loader.cc:53] Could not dlopen library 'libcufft.so.10.0'; dlerror: libcufft.so.10.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda-10.0/lib64:/usr/local/cuda-10.0/extras/CUPTI/lib64
2022-06-10 13:06:14.299198: I tensorflow/stream_executor/platform/default/dso_loader.cc:53] Could not dlopen library 'libcurand.so.10.0'; dlerror: libcurand.so.10.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda-10.0/lib64:/usr/local/cuda-10.0/extras/CUPTI/lib64
2022-06-10 13:06:14.299239: I tensorflow/stream_executor/platform/default/dso_loader.cc:53] Could not dlopen library 'libcusolver.so.10.0'; dlerror: libcusolver.so.10.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda-10.0/lib64:/usr/local/cuda-10.0/extras/CUPTI/lib64
2022-06-10 13:06:14.299281: I tensorflow/stream_executor/platform/default/dso_loader.cc:53] Could not dlopen library 'libcusparse.so.10.0'; dlerror: libcusparse.so.10.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda-10.0/lib64:/usr/local/cuda-10.0/extras/CUPTI/lib64
2022-06-10 13:06:14.299326: I tensorflow/stream_executor/platform/default/dso_loader.cc:53] Could not dlopen library 'libcudnn.so.7'; dlerror: libcudnn.so.7: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda-10.0/lib64:/usr/local/cuda-10.0/extras/CUPTI/lib64
2022-06-10 13:06:14.299336: W tensorflow/core/common_runtime/gpu/gpu_device.cc:1663] Cannot dlopen some GPU libraries. Skipping registering GPU devices...
2022-06-10 13:06:14.299421: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1181] Device interconnect StreamExecutor with strength 1 edge matrix:

  • 观察提示信息和一些现象,笔者得出结论,是CUDAcuDNN版本没有装合适,因为该程序会去/usr/local/cuda-10.0/lib64文件夹下找库,但是我就没有装CUDA 10.0。去网上找了一番资料后,笔者发现果然是CUDAcuDNN的版本问题,TensorFlow版本与CUDA版本居然也有对应关系,这下让我更加觉得TensorFlow不好用了。但是这台机器也不是笔者独占的,而且机器上已经有装好的CUDA 11.2cuDNN 8.4.0了,这种情况确实让人抓狂,不过在笔者浏览了浩瀚的因特耐特之后,发现居然有一种多版本CUDA共存和自由切换的操作,现将该技术整理如下。
  • 任务描述:在一台安装了CUDA 11.2cuDNN 8.4.0的机器上安装CUDA 10.0cuDNN 7.4.1,使得两者互不干扰和自由切换。
  • CUDAcuDNN的版本选择参考这篇博客

二、安装CUDA

  1. 查看已有CUDA环境

  2. 官网下载CUDA 10.0的runfile到服务器上。

  3. 安装CUDA 10.0
    执行如下指令

    sudo sh cuda_10.0.130_410.48_linux.run
    
  • 出现协议说明,可以按q跳过。

    - 出现问题`Do you accept the previously read EULA?`
    	- 输入`accept`+回车,继续安装。
    
    - 出现不支持配置的提醒:`You are attempting to install on an unsupported configuration. Do you wish to continue?`
    	- 输入`y`,继续安装。
    
    - 出现是否安装显卡驱动的提醒,我们已经装过了:`Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 410.48`
    	- 输入`n`,继续安装。
    
    - 出现是否安装CUDA工具包:`Install the CUDA 10.0 Toolkit?`
    	- 输入`y`,开始安装。
    
    - 出现工具包安装地址:`Enter Toolkit Location`
    	- 回车
    
    - 出现是否添加符号链接,现在已经有一个了,为了不影响现有的CUDA环境,选择否:`Do you want to install a symbolic link at /usr/local/cuda?`
    	- 输入`n`,继续安装。
    
    - 出现是否安装样例,选择是:`Install the CUDA 10.0 Samples?`
    	- 输入`y`,继续安装
    
    - 出现安装样例位置,默认即可:`Enter CUDA Samples Location`
    	- 回车
    

    不出意外此时应该安装完成,但如果此时你也出现Error: unsupported compiler: 9.4.0. Use --override to override this check.报错,我们按照他说的加上--override选项跳过检查。

    执行新的指令,选项和上图一致:

    sudo sh cuda_10.0.130_410.48_linux.run --override
    

    安装成功会出现以下提示:

  1. 为了不影响现有的CUDA环境,就不修改环境变量了,下文会详细讲述怎么使用新安装的CUDA 10.0。

三、安装cuDNN

  1. 根据安装的CUDA工具包版本在官网选择适合版本的cuDNN,本文安装的CUDA版本是10.0,就选择TensorFlow 1.14.0对应的cuDNN 7.4.1,选择Local Installer for Linux x86_64 (Tar)

  2. 复制cuDNN库的链接,使用wget下载或者下载到自己电脑之后再传到服务器上。
    下载下来之后,文件名是cudnn-10.0-linux-x64-v7.4.1.5.solitairetheme8,需要重命名一下,改成cudnn-10.0-linux-x64-v7.4.1.5.tgz

    	mv cudnn-10.0-linux-x64-v7.4.1.5.solitairetheme8 cudnn-10.0-linux-x64-v7.4.1.5.tgz
    
  3. 解压cuDNN文件,并进入解压出的文件夹,拷贝文件到/usr/local/cuda-10.0中。

    	tar -xvf cudnn-10.0-linux-x64-v7.4.1.5.tgz
    	cd cuda
    	sudo cp lib64/* /usr/local/cuda-10.0/lib64/
    	sudo cp include/* /usr/local/cuda-10.0/include/
    	sudo chmod a+r /usr/local/cuda-10.0/lib64/*
    	sudo chmod a+r /usr/local/cuda-10.0/include/*
    
  4. 查看cuDNN版本,指令为cat /usr/local/cuda-10.0/include/cudnn.h | grep CUDNN_MAJOR -A2

  5. 更新软链接,如果你安装的不是7.4.1记得更新下边命令中的数字。

    	cd /usr/local/cuda-10.0/lib64/
    	sudo rm -rf libcudnn.so libcudnn.so.7
    	sudo ln -s libcudnn.so.7.4.1 libcudnn.so.7
    	sudo ln -s libcudnn.so.7 libcudnn.so
    	sudo ldconfig -v
    
  6. 最后避免影响到原来的CUDA环境,再执行一下

    	source /etc/profile
    

    此时另一个版本的CUDA和cuDNN已经“偷偷”安装好了。

    但是此时nvcc -V版本还是11.2,具体怎么实现CUDA版本转换,请看下节。


四、切换CUDA版本

  • 切换到普通用户,查看CUDA版本,可以看到还是11.2
  • 下面我们要用到一个脚本。phohenecker大神写的CUDA版本切换脚本:
    特此将代码附上:
	#!/usr/bin/env bash
	
	# Copyright (c) 2018 Patrick Hohenecker
	#
	# Permission is hereby granted, free of charge, to any person obtaining a copy
	# of this software and associated documentation files (the "Software"), to deal
	# in the Software without restriction, including without limitation the rights
	# to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
	# copies of the Software, and to permit persons to whom the Software is
	# furnished to do so, subject to the following conditions:
	#
	# The above copyright notice and this permission notice shall be included in all
	# copies or substantial portions of the Software.
	#
	# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
	# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
	# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
	# AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
	# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
	# OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
	# SOFTWARE.
	
	# author:   Patrick Hohenecker <mail@paho.at>
	# version:  2018.1
	# date:     May 15, 2018
	
	
	set -e
	
	
	# ensure that the script has been sourced rather than just executed
	if [[ "${BASH_SOURCE[0]}" = "${0}" ]]; then
	    echo "Please use 'source' to execute switch-cuda.sh!"
	    exit 1
	fi
	
	INSTALL_FOLDER="/usr/local"  # the location to look for CUDA installations at
	TARGET_VERSION=${1}          # the target CUDA version to switch to (if provided)
	
	# if no version to switch to has been provided, then just print all available CUDA installations
	if [[ -z ${TARGET_VERSION} ]]; then
	    echo "The following CUDA installations have been found (in '${INSTALL_FOLDER}'):"
	    ls -l "${INSTALL_FOLDER}" | egrep -o "cuda-[0-9]+\\.[0-9]+$" | while read -r line; do
	        echo "* ${line}"
	    done
	    set +e
	    return
	# otherwise, check whether there is an installation of the requested CUDA version
	elif [[ ! -d "${INSTALL_FOLDER}/cuda-${TARGET_VERSION}" ]]; then
	    echo "No installation of CUDA ${TARGET_VERSION} has been found!"
	    set +e
	    return
	fi
	
	# the path of the installation to use
	cuda_path="${INSTALL_FOLDER}/cuda-${TARGET_VERSION}"
	
	# filter out those CUDA entries from the PATH that are not needed anymore
	path_elements=(${PATH//:/ })
	new_path="${cuda_path}/bin"
	for p in "${path_elements[@]}"; do
	    if [[ ! ${p} =~ ^${INSTALL_FOLDER}/cuda ]]; then
	        new_path="${new_path}:${p}"
	    fi
	done
	
	# filter out those CUDA entries from the LD_LIBRARY_PATH that are not needed anymore
	ld_path_elements=(${LD_LIBRARY_PATH//:/ })
	new_ld_path="${cuda_path}/lib64:${cuda_path}/extras/CUPTI/lib64"
	for p in "${ld_path_elements[@]}"; do
	    if [[ ! ${p} =~ ^${INSTALL_FOLDER}/cuda ]]; then
	        new_ld_path="${new_ld_path}:${p}"
	    fi
	done
	
	# update environment variables
	export CUDA_HOME="${cuda_path}"
	export CUDA_ROOT="${cuda_path}"
	export LD_LIBRARY_PATH="${new_ld_path}"
	export PATH="${new_path}"
	
	echo "Switched to CUDA ${TARGET_VERSION}."
	
	set +e
	return
  • 新建switch-cuda.sh文件,将上边代码写入;
    	vi switch-cuda.sh
    	source switch-cuda.sh
    	source switch-cuda.sh 10.0
    

    可以看到当执行source switch-cuda.sh的时候该脚本会扫描所有已安装的CUDA,并列出,用户只需要选择想用的CUDA版本号就可以轻松切换,例如source switch-cuda.sh 10.0,可以看到上图的nvcc也是成功切换了版本。
    并且该脚本基于export 语句,重启终端后,CUDA环境还是会恢复到默认的11.2,不影响下次使用,无需手动切回CUDA版本,下图为重启终端后的效果。

五、总结

以上就是今天要讲的内容,本文介绍了如何在一台机器上同时安装多个版本的CUDA,并且介绍了一种简便切换CUDA版本的操作。
如果本文能给你带来帮助的话,点个赞鼓励一下作者吧!

六、参考

有关【Linux】在一台机器上同时安装多个版本的CUDA(切换CUDA版本)的更多相关文章

  1. ruby - 在 64 位 Snow Leopard 上使用 rvm、postgres 9.0、ruby 1.9.2-p136 安装 pg gem 时出现问题 - 2

    我想为Heroku构建一个Rails3应用程序。他们使用Postgres作为他们的数据库,所以我通过MacPorts安装了postgres9.0。现在我需要一个postgresgem并且共识是出于性能原因你想要pggem。但是我对我得到的错误感到非常困惑当我尝试在rvm下通过geminstall安装pg时。我已经非常明确地指定了所有postgres目录的位置可以找到但仍然无法完成安装:$envARCHFLAGS='-archx86_64'geminstallpg--\--with-pg-config=/opt/local/var/db/postgresql90/defaultdb/po

  2. ruby - 完全离线安装RVM - 2

    我打算为ruby​​脚本创建一个安装程序,但我希望能够确保机器安装了RVM。有没有一种方法可以完全离线安装RVM并且不引人注目(通过不引人注目,就像创建一个可以做所有事情的脚本而不是要求用户向他们的bash_profile或bashrc添加一些东西)我不是要脚本本身,只是一个关于如何走这条路的快速指针(如果可能的话)。我们还研究了这个很有帮助的问题:RVM-isthereawayforsimpleofflineinstall?但有点误导,因为答案只向我们展示了如何离线在RVM中安装ruby。我们需要能够离线安装RVM本身,并查看脚本https://raw.github.com/wayn

  3. ruby-on-rails - Ruby on Rails with Haml - 如何从 erb 切换 - 2

    我正在从erb文件切换到HAML。我将hamlgem添加到我的系统中。我创建了app/views/layouts/application.html.haml文件。我应该只删除application.html.erb文件吗?此外,仍然有/public/index.html文件被呈现为默认页面。我想创建自己的默认index.html.haml页面。我应该把它放在哪里以及如何使系统呈现该文件而不是默认索引文件?谢谢! 最佳答案 是的,您可以删除任何已转换为HAML的View的ERB版本。至于你的另一个问题,删除public/index/h

  4. ruby-on-rails - rails 目前在重启后没有安装 - 2

    我有一个奇怪的问题:我在rvm上安装了ruby​​onrails。一切正常,我可以创建项目。但是在我输入“railsnew”时重新启动后,我有“程序'rails'当前未安装。”。SystemUbuntu12.04ruby-v"1.9.3p194"gemlistactionmailer(3.2.5)actionpack(3.2.5)activemodel(3.2.5)activerecord(3.2.5)activeresource(3.2.5)activesupport(3.2.5)arel(3.0.2)builder(3.0.0)bundler(1.1.4)coffee-rails(

  5. ruby - 如何为 emacs 安装 ruby​​-mode - 2

    我刚刚为fedora安装了emacs。我想用emacs编写ruby。为ruby​​提供代码提示、代码完成类型功能所需的工具、扩展是什么? 最佳答案 ruby-mode已经包含在Emacs23之后的版本中。不过,它也可以通过ELPA获得。您可能感兴趣的其他一些事情是集成RVM、feature-mode(Cucumber)、rspec-mode、ruby-electric、inf-ruby、rinari(用于Rails)等。这是我当前用于Ruby开发的Emacs配置:https://github.com/citizen428/emacs

  6. ruby-on-rails - 无法在centos上安装therubyracer(V8和GCC出错) - 2

    我正在尝试在我的centos服务器上安装therubyracer,但遇到了麻烦。$geminstalltherubyracerBuildingnativeextensions.Thiscouldtakeawhile...ERROR:Errorinstallingtherubyracer:ERROR:Failedtobuildgemnativeextension./usr/local/rvm/rubies/ruby-1.9.3-p125/bin/rubyextconf.rbcheckingformain()in-lpthread...yescheckingforv8.h...no***e

  7. ruby - 通过 RVM (OSX Mountain Lion) 安装 Ruby 2.0.0-p247 时遇到问题 - 2

    我的最终目标是安装当前版本的RubyonRails。我在OSXMountainLion上运行。到目前为止,这是我的过程:已安装的RVM$\curl-Lhttps://get.rvm.io|bash-sstable检查已知(我假设已批准)安装$rvmlistknown我看到当前的稳定版本可用[ruby-]2.0.0[-p247]输入命令安装$rvminstall2.0.0-p247注意:我也试过这些安装命令$rvminstallruby-2.0.0-p247$rvminstallruby=2.0.0-p247我很快就无处可去了。结果:$rvminstall2.0.0-p247Search

  8. ruby-on-rails - 项目升级后 Pow 不会更改 ruby​​ 版本 - 2

    我在我的Rails项目中使用Pow和powifygem。现在我尝试升级我的ruby​​版本(从1.9.3到2.0.0,我使用RVM)当我切换ruby​​版本、安装所有gem依赖项时,我通过运行railss并访问localhost:3000确保该应用程序正常运行以前,我通过使用pow访问http://my_app.dev来浏览我的应用程序。升级后,由于错误Bundler::RubyVersionMismatch:YourRubyversionis1.9.3,butyourGemfilespecified2.0.0,此url不起作用我尝试过的:重新创建pow应用程序重启pow服务器更新战俘

  9. ruby - 如何在 Lion 上安装 Xcode 4.6,需要用 RVM 升级 ruby - 2

    我实际上是在尝试使用RVM在我的OSX10.7.5上更新ruby,并在输入以下命令后:rvminstallruby我得到了以下回复:Searchingforbinaryrubies,thismighttakesometime.Checkingrequirementsforosx.Installingrequirementsforosx.Updatingsystem.......Errorrunning'requirements_osx_brew_update_systemruby-2.0.0-p247',pleaseread/Users/username/.rvm/log/138121

  10. ruby - Fast-stemmer 安装问题 - 2

    由于fast-stemmer的问题,我很难安装我想要的任何ruby​​gem。我把我得到的错误放在下面。Buildingnativeextensions.Thiscouldtakeawhile...ERROR:Errorinstallingfast-stemmer:ERROR:Failedtobuildgemnativeextension./System/Library/Frameworks/Ruby.framework/Versions/2.0/usr/bin/rubyextconf.rbcreatingMakefilemake"DESTDIR="cleanmake"DESTDIR=

随机推荐