草庐IT

低成本攒机跑深度学习AI

哲萌 2024-03-22 原文

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

攒机心得


前言

提示:这里可以添加本文要记录的大概内容:

随着人工智能的不断发展,深度学习这门技术也越来越重要,AI绘图、深度学习的训练都需要GPU计算节点,随着GPU价格的回落,普通人搭建GPU计算集群用来深度学习也成为了致富新道路。本文深度记录了本人一些丐中丐GPU集群攒机经验,给各位友友们分享~


一、入手GPU

GPU种类繁多,无论是矿卡还是新卡,茫茫多的GPU在选择的时候多少让人有点选择困难。但其实不考虑打游戏,单纯用于AI的话,最具性价比的卡按性能、显存和能耗以及个人主管见解来看,排名如下:

  1. Nvidia Telsa P100(250W 16GB)性能较强,且有Tensor core,实际运行双精度求解要比别的卡省显存,所以别看显存只有16GB,用起来可能赶上32GB的显存,海鲜市场价大概1300~1600左右,性价比还是可以的;
  2. Nvidia Telsa P40 (250W 24GB) 目前很香的一张卡,大概1/3个3090,没有Tensor core,计算起来大概VGG-19数据集体感5~10分钟左右,没法测那么准但总之就是可以接收,同时24G大显存,满足你大模型的梦想,可以说是穷人跑大模型的首选了。缺点就是你一搜P40几乎都是华子的手机,而且最近海鲜市场的P40不知为何都从南京一个地方发货,价格800元-1000。还有个缺点就是基本上应该都是矿卡;
  3. Nvidia Telsa K40/M40 (250W 24GB) 这个档次的卡主打一个丐帮AI,性能不性能无所谓,省不省电无所谓,爷有的是时间炼丹。没有Tensor core,跑什么都一天起步(虽然有些夸张,但重点就是突出慢),价格五百左右很美丽;
    注意上述三张卡都没有主动散热,所以要么买个3D打印的小风扇,要么自己手动改散热(有可能导致之后卖不出去)。
  4. Nvidia RTX 2080Ti/2080 (250W 11GB) 性能上很强,有Tensor core,用来AI绘图绰绰有余,但跑大模型就不行了,价格上2800左右,目前有所上涨,这卡以及后面介绍的卡都有一个前面没有的优势就是可以打游戏,也就是可以当做主力机,所以如果不是有很大的模型要跑,2080的性价比反而更高,而且最近也有了改22G显存的方案(不太推荐,改坏了等于三千打水漂)。缺点就是基本上应该都是矿卡;
  5. Nvidia RTX 3060 12G版 (170W 12GB) 性能上大概一个半的P40(用3090为标杆对比,主要我没实际拿这俩卡跑benchmark比过),显存上12GB足够九成的AI模型运行了(什么你说你模型分分钟20G?回去重新做数据预处理去),当然也不一定,毕竟不是所有的数据都好做的,尤其是一些需要end-to-end的玩法。这卡应该海鲜市场也都是矿卡,大概1500~1600;
  6. Nvidia GTX 1080Ti (250W 10GB) AI老友,众多实验室机房淘汰下来大量1080ti,以及矿山里的大量1080ti都在海鲜市场蓄势待发,和P40一个性能,由于可以打游戏所以价格皮鞭在1200~1800左右,成色这玩意纯属没啥用你看也看不出来,金手指也未必能辨别的那么准确,就当是矿渣,要是1300以下拿下那还行,太贵了的话你就当是打游戏用,那也不赶3060,总之能跑但不太推荐;
  7. Nvidia RTX 2070 (300W 8GB) 打游戏不错,用来AI比较微妙。1000左右的价格让它兼具游戏与AI的性价比,然而8G显存着实拖后腿,属于是处理数据调参的高手能玩的得心应手,新手的话极其不推荐,显存的管理以及feature的处理你驾驭不住;
  8. Nvidia RTX 3090 (350W 24GB) 性能和显存上无论如何都很适合AI,打游戏也是顶级,但你想想一张卡就要6000的价格,够你买至少5个P40,这一切,值得吗;
  9. Nvidia RTX 4090 (450W 24GB) 富哥可以直接V我50看看实力;
  10. Nvidia Telsa A100 (400W 48GB) 富哥直接上服务器,电源记得配EVGA的;
  11. Nvidia Telsa V100 (400W 32GB) 富哥直接上服务器,电源记得配EVGA的,但也得记得问问显存,要是买到16GB的我觉得不如P100(不是说性能,性价比上来讲);

二、主板建议

1.AMD系列

目前测试B450M以上(B550M、B650M等)都可以使用Telsa显卡,但要保证BIOS是最新版
并且bios需要有above 4G decoding选项
注意该类型主板一般不支持服务器内存!!
当然你要是用EPYC的另说,富哥应该不太需要担心这些

更新Bios驱动方法如下
先去官网下载最新的驱动

得到一个压缩文件夹,找到一个U盘,格式化成FAT32格式,将压缩包的东西解压进U盘里,接着U盘插到主板上
进入Bios

进入Bios的Flash模式

选择唯一一个描述不是DIR的文件


接下来就会开始更新BIOS,确保不要断电

Tips:如果你没有用来亮机的卡,确保VGA detection的选项是“Ignore”
注意选择CPU的时候看清楚是否支持128G内存,理论上3500x以上锐龙都可以,3200g到3400不确定,再往下肯定是不行的。

2.Intel系列

理论上Prime Z170以上的主板都可以支持above 4g decoding,但要注意更新到最新bios,更新方法与amd系列一样,这里不在赘述;
注意选择CPU的时候看清楚是否支持128G内存,理论上10代以上i5、i7、i9都可以,貌似i3是全系不支持128G及以上的。
注意该类型主板一般不支持服务器内存!!

3.X99系列

首推华南金牌X99,本人选择的是华南金牌X99-f8(最大内存256GB),虽然这个系列主板会有很多小问题,但对于一个丐版AI服务器来说,这个板对得起它的价值,更何况这个主板支持使用服务器内存,意味着你可以以很便宜的价格(大概200多买到32G)拿到服务器,运气好的直接去什么废弃机房捞,DDR4的机房内存一大堆
X99适配的CPU有很多,大概范围是LGa2011-3的CPU都支持,详细一点的话那就是cpuCorei7-5960X、i7-5930K、i7-5820KXEONE5-2699v3、E5-2698v3、E5-2695v3、E5-2690v3、E5-2687Wv3、E5-2685v3、E5-2680v3、XeonE5-2670v3、E5-2667v3、E5-2660v3、E5-2650v3、E5-2650Lv3、E5-2640v3、E5-2630v3、XeonE5-2629v3、E5-2623v3、E5-2622v3、E5-2620v3、E5-2609v3、E5-2603v3、E5-1680v3、XeonE5-1650v3、XeonE5-1630v3、XeonE5-1620v3
价格都在100-200左右,贵的没必要,跑AI不是太吃CPU,当然也别太电子垃圾了。

放一张X99-f8的板子,三个Pcie插槽,三卡齐飞,甚至可以用来玩分布式,不过不要对带宽抱太大期望,咱主打一个性价比AI,你不嫌他烂,他不嫌你穷。

然而X99主板在2018年的Bios才推出above 4g decoding,因此想要用来跑AI,大概率需要你升级Bios。
X99主板升级Bios和其他主板不太一样,需要做一个dos系统U盘
这里推荐Rufus,一个快速做装机盘的软件,自带dos系统



这里选择FreeDOS即可,会自动刷进去一个dos系统,记住是FAT32格式
之后点击开始,等待完成即可

进入X99-f8的官网,下载最新的bios
http://www.huananzhi.com/download1.php?lm=13

将压缩包里的文件直接放进U盘根目录里,

接着U盘插到主板上,设置引导进入U盘里的DOS系统

输入你放在U盘里的exe文件(比如上图的fpt.exe)
之后就会自动开始更新bios的过程,中间会不断弹出一些yes or no的选项,无脑全输入y或则yes就可以

更新完成后按ctrl+alt+del重启,开机就能看到logo了

三、电源和机箱建议

这个部分其实很简单,长城1000W电源或者航嘉1000W电源,价格100(海鲜市场)-500左右。想要安全一些的上EVGA的电源,价格800(海鲜市场)-1000左右,有些EVGA的也能便宜一些,但就个人来看,其他地方省钱就省了,电源我们整好点不过分。

机箱方面,海景房是肯定够放的,PDD上动力火车价格就很美丽,

既然要丐,那机箱也可以山寨~
或者直接服务器机箱,可以配上1.5A以上的暴力风扇,也可以选择静音扇,但那样就必须要搭配3D打印的显卡风扇了。

四、安装系统以及cuda

windows系统以及cuda应该不是很需要介绍如何安装了
这里主要讲解linux系统
强烈推荐ubuntu20.04系统,基本上支持一切cuda版本以及torch、tf版本,非常好用
安装ubuntu依然可以使用上述的Rufus,镜像文件选择ubuntu的iso就可以了,注意看好是desktop的还是server的
进入系统以后记得禁用nouveau
1.禁用bios中的secure boot,因为secure boot会阻止第三方源安装的驱动,禁用不会带来多大隐患。
2.禁用nouveau驱动,这是Ubuntu默认的开源显卡驱动,与N卡驱动一起使用会导致兼容性问题,比如卡在登录界面无法进入图形界面。
创建配置文件:

sudo gedit /etc/modprobe.d/blacklist_nouveau.conf

添加

blacklist nouveau
options nouveau modeset=0

保存并重启
输入下列指令查看是否生效

lsmod | grep nouveau

如果没有输出那就是生效了
接着进入纯命令行界面

sudo init 3

下载nvidia官网适合版本的驱动,比如cuda12
https://developer.nvidia.com/cuda-downloads

一路选择系统以及需要的文件类型,比如这里选择runfile

wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda_12.1.0_530.30.02_linux.run
sudo sh cuda_12.1.0_530.30.02_linux.run

输入accept

选择install

等待安装完成即可
输入

nvidia-smi


总结

丐版的AI服务器长时间开机,所以一定要注意清灰以及电源的安全性,另外硬盘最近价格也不高了,可以顺势多屯点硬盘,让AI服务器不仅可以训练人工智障,同时当个NAS看看电影,岂不美哉~

有关低成本攒机跑深度学习AI的更多相关文章

  1. LC滤波器设计学习笔记(一)滤波电路入门 - 2

    目录前言滤波电路科普主要分类实际情况单位的概念常用评价参数函数型滤波器简单分析滤波电路构成低通滤波器RC低通滤波器RL低通滤波器高通滤波器RC高通滤波器RL高通滤波器部分摘自《LC滤波器设计与制作》,侵权删。前言最近需要学习放大电路和滤波电路,但是由于只在之前做音乐频谱分析仪的时候简单了解过一点点运放,所以也是相当从零开始学习了。滤波电路科普主要分类滤波器:主要是从不同频率的成分中提取出特定频率的信号。有源滤波器:由RC元件与运算放大器组成的滤波器。可滤除某一次或多次谐波,最普通易于采用的无源滤波器结构是将电感与电容串联,可对主要次谐波(3、5、7)构成低阻抗旁路。无源滤波器:无源滤波器,又称

  2. CAN协议的学习与理解 - 2

    最近在学习CAN,记录一下,也供大家参考交流。推荐几个我觉得很好的CAN学习,本文也是在看了他们的好文之后做的笔记首先是瑞萨的CAN入门,真的通透;秀!靠这篇我竟然2天理解了CAN协议!实战STM32F4CAN!原文链接:https://blog.csdn.net/XiaoXiaoPengBo/article/details/116206252CAN详解(小白教程)原文链接:https://blog.csdn.net/xwwwj/article/details/105372234一篇易懂的CAN通讯协议指南1一篇易懂的CAN通讯协议指南1-知乎(zhihu.com)视频推荐CAN总线个人知识总

  3. 深度学习部署:Windows安装pycocotools报错解决方法 - 2

    深度学习部署:Windows安装pycocotools报错解决方法1.pycocotools库的简介2.pycocotools安装的坑3.解决办法更多Ai资讯:公主号AiCharm本系列是作者在跑一些深度学习实例时,遇到的各种各样的问题及解决办法,希望能够帮助到大家。ERROR:Commanderroredoutwithexitstatus1:'D:\Anaconda3\python.exe'-u-c'importsys,setuptools,tokenize;sys.argv[0]='"'"'C:\\Users\\46653\\AppData\\Local\\Temp\\pip-instal

  4. ruby - 我正在学习编程并选择了 Ruby。我应该升级到 Ruby 1.9 吗? - 2

    我完全不是程序员,正在学习使用Ruby和Rails框架进行编程。我目前正在使用Ruby1.8.7和Rails3.0.3,但我想知道我是否应该升级到Ruby1.9,因为我真的没有任何升级的“遗留”成本。缺点是什么?我是否会遇到与普通gem的兼容性问题,或者甚至其他我不太了解甚至无法预料的问题? 最佳答案 你应该升级。不要坚持从1.8.7开始。如果您发现不支持1.9.2的gem,请避免使用它们(因为它们很可能不被维护)。如果您对gem是否兼容1.9.2有任何疑问,您可以在以下位置查看:http://www.railsplugins.or

  5. ruby - 我如何学习 ruby​​ 的正则表达式? - 2

    如何学习ruby​​的正则表达式?(对于假人) 最佳答案 http://www.rubular.com/在Ruby中使用正则表达式时是一个很棒的工具,因为它可以立即将结果可视化。 关于ruby-我如何学习ruby​​的正则表达式?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/1881231/

  6. 深度学习12. CNN经典网络 VGG16 - 2

    深度学习12.CNN经典网络VGG16一、简介1.VGG来源2.VGG分类3.不同模型的参数数量4.3x3卷积核的好处5.关于学习率调度6.批归一化二、VGG16层分析1.层划分2.参数展开过程图解3.参数传递示例4.VGG16各层参数数量三、代码分析1.VGG16模型定义2.训练3.测试一、简介1.VGG来源VGG(VisualGeometryGroup)是一个视觉几何组在2014年提出的深度卷积神经网络架构。VGG在2014年ImageNet图像分类竞赛亚军,定位竞赛冠军;VGG网络采用连续的小卷积核(3x3)和池化层构建深度神经网络,网络深度可以达到16层或19层,其中VGG16和VGG

  7. 机器学习——时间序列ARIMA模型(四):自相关函数ACF和偏自相关函数PACF用于判断ARIMA模型中p、q参数取值 - 2

    文章目录1、自相关函数ACF2、偏自相关函数PACF3、ARIMA(p,d,q)的阶数判断4、代码实现1、引入所需依赖2、数据读取与处理3、一阶差分与绘图4、ACF5、PACF1、自相关函数ACF自相关函数反映了同一序列在不同时序的取值之间的相关性。公式:ACF(k)=ρk=Cov(yt,yt−k)Var(yt)ACF(k)=\rho_{k}=\frac{Cov(y_{t},y_{t-k})}{Var(y_{t})}ACF(k)=ρk​=Var(yt​)Cov(yt​,yt−k​)​其中分子用于求协方差矩阵,分母用于计算样本方差。求出的ACF值为[-1,1]。但对于一个平稳的AR模型,求出其滞

  8. Unity Shader 学习笔记(5)Shader变体、Shader属性定义技巧、自定义材质面板 - 2

    写在之前Shader变体、Shader属性定义技巧、自定义材质面板,这三个知识点任何一个单拿出来都是一套知识体系,不能一概而论,本文章目的在于将学习和实际工作中遇见的问题进行总结,类似于网络笔记之用,方便后续回顾查看,如有以偏概全、不祥不尽之处,还望海涵。1、Shader变体先看一段代码......Properties{ [KeywordEnum(on,off)]USL_USE_COL("IsUseColorMixTex?",int)=0 [Toggle(IS_RED_ON)]_IsRed("IsRed?",int)=0}......//中间省略,后续会有完整代码 #pragmamulti_c

  9. ruby-on-rails - 这个 C 和 PHP 程序员如何学习 Ruby 和 Rails? - 2

    按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visitthehelpcenter指导。关闭9年前。我来自C、php和bash背景,很容易学习,因为它们都有相同的C结构,我可以将其与我已经知道的联系起来。然后2年前我学了Python并且学得很好,Python对我来说比Ruby更容易学。然后从去年开始,我一直在尝试学习Ruby,然后是Rails,我承认,直到现在我还是学不会,讽刺的是那些打着简单易学的烙印,但是对于我这样一个老练的程序员来说,我只是无法将它

  10. ruby Hash 包括另一个哈希,深度检查 - 2

    进行这种深度检查的最佳方法是什么:{:a=>1,:b=>{:c=>2,:f=>3,:d=>4}}.include?({:b=>{:c=>2,:f=>3}})#=>true谢谢 最佳答案 我想我从那个例子中明白了你的意思(不知何故)。我们检查子哈希中的每个键是否在超哈希中,然后检查这些键的对应值是否以某种方式匹配:如果值是哈希,则执行另一次深度检查,否则,检查值是否相等:classHashdefdeep_include?(sub_hash)sub_hash.keys.all?do|key|self.has_key?(key)&&ifs

随机推荐