草庐IT

运维工作十多年,无数个瞬间、我觉得自己还是个小白...

高效运维 2023-03-28 原文
​曾几何时,当我还是一名初出茅庐的计算机专业应届生的时候,在招聘网站上浏览了很多招聘贴,眼花缭乱的技术岗位让我摸不着头脑:研发工程师、运维工程师、测试工程师...‍

大学期间专业课马马虎虎,更谈不上有什么技术视野,对于具体从事那个技术方向并没有什么明确的想法。

直到一位学长对我说:“做运维吧,做运维不用天天写代码,会玩 Liunx 就行!比做开发轻松多了!”

‍‍‍‍‍‍‍‍我选择了相信......

入行十多年,吃过很多苦,背了很多锅,弄死过服务器,经历过部门裁员,如果有人现在跟我说做运维比开发简单,那我会毫不犹豫的把他拉黑...‍‍‍‍‍‍‍‍

基础的运维工作很简单,但运维工作最大的特点就是复杂

在我看来,运维工作可能是最复杂的技术工种之一,需要处理大量的技术细节、不同平台的集成和配置,以及解决各种复杂的问题和故障。因此需要运维人员拥有广泛的技能和知识,以应对不断变化的技术和业务需求:

运维常常要面对的复杂平台运维工作。原因是企业通常需要管理和监控的不是单一的平台和系统,而是复杂的多,这些系统可能来自不同的供应商,使用不同的协议和技术,包括服务器、存储、网络、应用程序等。

繁琐的配置管理也是运维工作的难点之一。配置管理涉及到大量的任务,例如系统安装、配置更新、软件安装和更新等。这些任务需要在整个系统中协调和执行。

大规模集群的管理工作同样不简单。大型企业需要管理数千台服务器,这需要强大的工具和自动化技术。运维人员需要使用自动化工具来管理配置、更新、监视和报告。

运维安全问题同样不能忽视。运维人员需要保护公司的资产和数据,并保证系统的安全性。这可能包括防火墙、入侵检测系统、安全补丁管理等。

运维还需要有丰富的故障处理经验。故障是运维工作中的常见问题,当系统出现问题时,运维人员需要快速定位故障,并采取措施恢复服务。

持续学习是对运维人最基本的要求。运维工具和技术的快速演进十分夸张,IT技术在不断发展,新技术和工具不断涌现,运维人员需要不断学习和更新知识,以跟上技术的快速演进。

运维是高危职业,没弄死过服务器的运维人生是不完美的?

如果说高危职业,运维肯定可以算一个,即使在不少大公司,也经常发生运维人为操作引起的宕机事故:

太平洋石油公司网络攻击(2021年):2021年5月,美国太平洋石油公司遭到一次勒索软件攻击,导致该公司的网络和服务器出现故障和停机。据报道,该事件是由于一名员工在误操作时打开了一个恶意链接导致的。

GitLab故障(2017年):2017年1月,代码托管服务提供商GitLab发生了一次严重的数据丢失事件,导致许多客户的数据被永久删除。据GitLab后来的官方声明,这是由于一名员工在误操作时删除了一个生产数据库的文件导致的。

沃尔玛服务器宕机(2019年):2019年11月,美国零售巨头沃尔玛的服务器在一个小时内多次宕机,导致该公司的网站、应用程序和支付系统无法正常工作。据报道,该事件是由于一名员工在进行例行的服务器维护时出现错误导致的。

微软Azure云服务中断(2020年):2020年9月,微软的Azure云服务出现了一次全球性的中断,导致许多客户的应用程序和服务无法正常工作。后来证实,该事件是由于一个网络配置错误导致的。

运维也可能面对各种不可抗力,甚至是自然灾害

菲律宾台风(2013年):2013年11月,菲律宾遭遇了一场强烈的台风,这是自1947年以来菲律宾遭遇的最强台风。这场台风造成了超过6,000人的死亡和失踪,并且对该国的基础设施造成了严重破坏。该灾难还导致许多国际企业在菲律宾的数据中心和服务器停机。

美国飓风(2012年):2012年10月,美国东海岸遭遇了一场强烈的飓风,该灾难造成了大规模的停电、通信中断和水灾。该灾难还导致了一些知名公司和服务提供商的数据中心和服务器停机,包括亚马逊、谷歌和Netflix。

职业发展方向不明确,运维工作常常陷入职场迷茫...‍‍‍‍‍

硬技能落后可能是运维人面对的最大难题。随着技术的不断进步,运维工作需要不断学习新的技能和工具,以适应不断变化的市场需求。然而,对于一些从事运维工作多年的人来说,他们可能会发现自己的技能已经落后于市场需求,这会让他们感到迷茫和不知所措。

大环境不好真不是运维造成的。与其他技术领域相比,运维领域的职业发展路径相对较模糊。在一些组织中,运维工程师往往只被视为“后勤部门”,缺乏与其他技术团队平等的地位和待遇,例如无法得到应有的认可和奖励。这更加重了运维的负面情绪,从而一定程度导致运维工程师对职业发展前景不够明确。

只顾低头走路,无暇抬头看天。运维工作的本质是确保系统的稳定性和可靠性,因此运维工程师必须时刻保持高度的警惕和专注。这可能会导致他们的工作压力非常大,特别是在面对系统故障或紧急事件时。疲于应付生活中的苟且,无暇思考职业发展的远方。

因此我们常常在思考,运维生涯如何更好的发展?‍‍

布赖恩·费瑟斯通豪所著《远见》一书中描述了职业生涯的普遍发展规律,其中提到的原则或许能给我们答案:

具备未来45年的思维,如果以较长的时间跨度为规划,例如45年,你就不会在乎眼下一城一池的得失。而且在有明确职业规划的前提下,更容易克服困难,坚持下去。

而我们要做的是明确运维技术发展的路径,从而在一个细分技术领域做到极致

向 DevOps 转型:不知何时,技术圈开始流行一种所谓的“DevOps已死”的论调。然而 DevOps 绝不是简单的让开发去做运维,让运维无路可走。

运维工作已经很难了,别在给我们制造恐慌了。

真正 DevOps 的必要组成部分应是一个内部 DevOps 平台和维护内部平台的专门团队,而不是一堆需要程序员自己去搞定的零散开源工具,或者说让开发去干运维的活。真正的 DevOps 团队应该让开发和运维紧密团结在一起,共但共责,协同提升IT效能,从而为业务赋能。

运维向 DevOps 的转型需要运维人员掌握一些关键的工具和技术,如持续集成、持续交付、自动化测试、容器化等,同时 DevOps 团队应引入敏捷开发、迭代开发和持续交付等方法。在一个建立完备 DevOps 文化的企业,运维转型 DevOps 工作是一个非常好的发展路径。

向 AIOps 转型:同样 AIOps 也是运维一直比较好的职业发展路径。AIOps 可以帮助 IT 运维人员自动化一些常规的、繁琐的、低价值的操作,如日志分析、故障排除等,从而释放更多的时间和精力来解决更加复杂的问题。

同时运维工作涉及到很多方面,包括基础设施管理、应用程序部署、监控、故障排除等等,这些任务需要人类运维人员的专业知识和经验。

AIOps 技术可以提高 IT 运维效率和准确性,但是它并不会完全取代人类运维人员的工作。相反,它们可以共同工作,提高整个 IT 运维团队的效率和生产力。

向SRE转型:不断学习软件开发技能,掌握DevOps中的自动化工具、测试、部署和监控等实践。学习云计算和容器技术,SRE需要了解云计算平台和容器技术,掌握基本的云服务和容器管理工具,如AWS、Docker、Kubernetes等。掌握数据分析技能同时在组织内建立SRE文化,如可靠性、自动化和实验文化等核心概念。​

有关运维工作十多年,无数个瞬间、我觉得自己还是个小白...的更多相关文章

  1. ruby-on-rails - 由于 "wkhtmltopdf",PDFKIT 显然无法正常工作 - 2

    我在从html页面生成PDF时遇到问题。我正在使用PDFkit。在安装它的过程中,我注意到我需要wkhtmltopdf。所以我也安装了它。我做了PDFkit的文档所说的一切......现在我在尝试加载PDF时遇到了这个错误。这里是错误:commandfailed:"/usr/local/bin/wkhtmltopdf""--margin-right""0.75in""--page-size""Letter""--margin-top""0.75in""--margin-bottom""0.75in""--encoding""UTF-8""--margin-left""0.75in""-

  2. ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2

    我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗?当我运行compasswatch时,它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行?文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们?我自己编译的.sass文件编译成compiled/t

  3. ruby - 无法让 RSpec 工作—— 'require' : cannot load such file - 2

    我花了三天的时间用头撞墙,试图弄清楚为什么简单的“rake”不能通过我的规范文件。如果您遇到这种情况:任何文件夹路径中都不要有空格!。严重地。事实上,从现在开始,您命名的任何内容都没有空格。这是我的控制台输出:(在/Users/*****/Desktop/LearningRuby/learn_ruby)$rake/Users/*******/Desktop/LearningRuby/learn_ruby/00_hello/hello_spec.rb:116:in`require':cannotloadsuchfile--hello(LoadError) 最佳

  4. ruby-on-rails - rspec should have_select ('cars' , :options => ['volvo' , 'saab' ] 不工作 - 2

    关闭。这个问题需要detailsorclarity.它目前不接受答案。想改进这个问题吗?通过editingthispost添加细节并澄清问题.关闭8年前。Improvethisquestion在首页我有:汽车:VolvoSaabMercedesAudistatic_pages_spec.rb中的测试代码:it"shouldhavetherightselect"dovisithome_pathit{shouldhave_select('cars',:options=>['volvo','saab','mercedes','audi'])}end响应是rspec./spec/request

  5. ruby-on-rails - s3_direct_upload 在生产服务器中不工作 - 2

    在Rails4.0.2中,我使用s3_direct_upload和aws-sdkgems直接为s3存储桶上传文件。在开发环境中它工作正常,但在生产环境中它会抛出如下错误,ActionView::Template::Error(noimplicitconversionofnilintoString)在View中,create_cv_url,:id=>"s3_uploader",:key=>"cv_uploads/{unique_id}/${filename}",:key_starts_with=>"cv_uploads/",:callback_param=>"cv[direct_uplo

  6. ruby - JetBrains RubyMine 3.2.4 调试器不工作 - 2

    使用Ruby1.9.2运行IDE提示说需要gemruby​​-debug-base19x并提供安装它。但是,在尝试安装它时会显示消息Failedtoinstallgems.Followinggemswerenotinstalled:C:/ProgramFiles(x86)/JetBrains/RubyMine3.2.4/rb/gems/ruby-debug-base19x-0.11.30.pre2.gem:Errorinstallingruby-debug-base19x-0.11.30.pre2.gem:The'linecache19'nativegemrequiresinstall

  7. ruby - `rescue $!` 是如何工作的? - 2

    我知道全局变量$!包含最新的异常对象,但我对下面的语法感到困惑。谁能帮助我理解以下语法?rescue$! 最佳答案 此构造可防止异常停止您的程序并使堆栈跟踪冒泡。它还会将该异常作为值返回,这很有用。a=get_me_datarescue$!在此行之后,a将保存请求的数据或异常。然后您可以分析该异常并采取相应措施。defget_me_dataraise'Nodataforyou'enda=get_me_datarescue$!puts"Executioncarrieson"pa#>>Executioncarrieson#>>#更现实的

  8. ruby - File.read ("| echo mystring") 是如何工作的? - 2

    我在我正在处理的一些代码中发现了这一点。它旨在解决从磁盘读取key文件的要求。在生产环境中,key文件的内容位于环境变量中。旧代码:key=File.read('path/to/key.pem')新代码:key=File.read('|echo$KEY_VARIABLE')这是如何工作的? 最佳答案 来自IOdocs:Astringstartingwith“|”indicatesasubprocess.Theremainderofthestringfollowingthe“|”isinvokedasaprocesswithappro

  9. ruby - 这个 ruby​​ 注入(inject)魔术是如何工作的? - 2

    我今天看到了一个ruby​​代码片段。[1,2,3,4,5,6,7].inject(:+)=>28[1,2,3,4,5,6,7].inject(:*)=>5040这里的注入(inject)和之前看到的完全不一样,比如[1,2,3,4,5,6,7].inject{|sum,x|sum+x}请解释一下它是如何工作的? 最佳答案 没有魔法,符号(方法)只是可能的参数之一。这是来自文档:#enum.inject(initial,sym)=>obj#enum.inject(sym)=>obj#enum.inject(initial){|mem

  10. ruby-on-rails - attr_accessible 在 Rails 中如何工作? - 2

    我刚刚有一个关于RubyonRails和模型(Rails3)中的attr_accessible属性的一般性问题。有人可以解释应该在那里定义哪些模型属性吗?我记得一些关于批量分配风险的事情,虽然我在这方面不太了解......谢谢:) 最佳答案 想象一个带有一些字段的订单类:Order.new({:type=>'Corn',:quantity=>6})现在假设订单也有折扣代码,比如:price_off。您不想将:price_off标记为attr_accessible。这会阻止恶意代码制作最终会执行如下操作的帖子:Order.new({:

随机推荐