草庐IT

系统管理员排除故障的五种武器

当你不知道从哪里开始时,这五个工具可以帮助你找到用户的IT问题的源头。作为系统管理员,我每天都面临着需要快速解决的问题,用户和管理人员期望事情能够顺利地进行。在我管理的这样的一个大型环境中,几乎不可能从头到尾了解所有的系统和产品,所以我必须使用创造性的技术来找到问题的根源,并(希望可以)提出解决方案。这是我20多年来的日常经验!每天上班时,我从不知道会发生什么。因此,我有一些快速而简陋的技巧,当一个问题落在我的身上,而我又不知道从哪里开始时,我一般就会采用这些技巧。但等一下!在你直接打开命令行之前,请花一些时间与你的用户交谈。是的,这可能很乏味,但他们可能会有一些好的信息给你。请记住,用户可能

系统管理员排除故障的五种武器

当你不知道从哪里开始时,这五个工具可以帮助你找到用户的IT问题的源头。作为系统管理员,我每天都面临着需要快速解决的问题,用户和管理人员期望事情能够顺利地进行。在我管理的这样的一个大型环境中,几乎不可能从头到尾了解所有的系统和产品,所以我必须使用创造性的技术来找到问题的根源,并(希望可以)提出解决方案。这是我20多年来的日常经验!每天上班时,我从不知道会发生什么。因此,我有一些快速而简陋的技巧,当一个问题落在我的身上,而我又不知道从哪里开始时,我一般就会采用这些技巧。但等一下!在你直接打开命令行之前,请花一些时间与你的用户交谈。是的,这可能很乏味,但他们可能会有一些好的信息给你。请记住,用户可能

vivo 故障定位平台的探索与实践

一、背景介绍1.1程序员的困扰作为一名IT从业人员,比如开发和运维,多少有过类似的经历:睡觉的时候被电话叫醒,过节的时候在值班,游玩的时候被通知处理故障。作为一名程序员,我们时时刻刻都在想着运用信息技术,为别人解决问题,提升效率,节省成本。随着微服务架构的快速发展,带来一系列复杂的调用链路和海量的数据。对于我们来说,排查问题是一个大挑战,寻找故障原因犹如大海捞针,需要花费大量的时间和精力。1.2现状分析vivo已经建立了一套完整的端到端监控体系,涵盖了基础监控、通用监控、调用链、日志监控、拨测监控等。这些系统每天都会产生海量的数据,如何利用好这些数据,挖掘数据背后的潜在价值,让数据更好的服务于

vivo 故障定位平台的探索与实践

一、背景介绍1.1程序员的困扰作为一名IT从业人员,比如开发和运维,多少有过类似的经历:睡觉的时候被电话叫醒,过节的时候在值班,游玩的时候被通知处理故障。作为一名程序员,我们时时刻刻都在想着运用信息技术,为别人解决问题,提升效率,节省成本。随着微服务架构的快速发展,带来一系列复杂的调用链路和海量的数据。对于我们来说,排查问题是一个大挑战,寻找故障原因犹如大海捞针,需要花费大量的时间和精力。1.2现状分析vivo已经建立了一套完整的端到端监控体系,涵盖了基础监控、通用监控、调用链、日志监控、拨测监控等。这些系统每天都会产生海量的数据,如何利用好这些数据,挖掘数据背后的潜在价值,让数据更好的服务于

一次棘手的容器故障,我终于知道SRE有多重要了……

前言:关于什么是SRE,以及在业务上有哪些具体的输出,网上资料众多但都只是对基本概念做描述。那容器SRE究竟要怎么结合业务,得物容器SRE又有哪些最佳实践,本文就得物容器SRE的一些事情向大家做介绍。一、SRE定义稳定性工程师,用软件工程解决复杂的运维问题,50%的时间用于运维琐事,50%的时间用于软件工程保障业务的稳定性和可扩展性,包括开发监控,日志,告警系统,业务性能调优等二、对于SRE的理解1、SRE的监控和Oncall应急响应(1)一个团队Oncall至多需要两个人(另外一个是新手shadow),oncall人员需要具备以下能力:①清晰的问题升级路线②清晰定义的应急事件处理步骤③监控巡

一次棘手的容器故障,我终于知道SRE有多重要了……

前言:关于什么是SRE,以及在业务上有哪些具体的输出,网上资料众多但都只是对基本概念做描述。那容器SRE究竟要怎么结合业务,得物容器SRE又有哪些最佳实践,本文就得物容器SRE的一些事情向大家做介绍。一、SRE定义稳定性工程师,用软件工程解决复杂的运维问题,50%的时间用于运维琐事,50%的时间用于软件工程保障业务的稳定性和可扩展性,包括开发监控,日志,告警系统,业务性能调优等二、对于SRE的理解1、SRE的监控和Oncall应急响应(1)一个团队Oncall至多需要两个人(另外一个是新手shadow),oncall人员需要具备以下能力:①清晰的问题升级路线②清晰定义的应急事件处理步骤③监控巡

从一个Rac故障的分析谈起

昨天在机场候机的时候,突然有了一些感想,写了一些让人莫名其妙的文字。实际上也不是莫名其妙,对于从事运维知识图谱工作的朋友来说,可能还是明白我在说什么的。专家分析故障的时候,是根据经验与掌握的知识去做问题发现的,发现的依据是系统运行状态,指标,日志等数据。因为人既具有记忆思维,又具有逻辑推理能力,因此大部分问题的解决来自于对以往案例的积累与基于知识的逻辑推理。这些年,OracleRAC的性能问题和故障已经被大家研究的比较透了,下面是一个RAC常见问题分析的思维导图。上面的思维导图是专家梳理出来的RAC性能分析的一些常见分析路径,根据专家脑子中的类似的思维导图,人的思维可以根据现实的实际情况进行发

从一个Rac故障的分析谈起

昨天在机场候机的时候,突然有了一些感想,写了一些让人莫名其妙的文字。实际上也不是莫名其妙,对于从事运维知识图谱工作的朋友来说,可能还是明白我在说什么的。专家分析故障的时候,是根据经验与掌握的知识去做问题发现的,发现的依据是系统运行状态,指标,日志等数据。因为人既具有记忆思维,又具有逻辑推理能力,因此大部分问题的解决来自于对以往案例的积累与基于知识的逻辑推理。这些年,OracleRAC的性能问题和故障已经被大家研究的比较透了,下面是一个RAC常见问题分析的思维导图。上面的思维导图是专家梳理出来的RAC性能分析的一些常见分析路径,根据专家脑子中的类似的思维导图,人的思维可以根据现实的实际情况进行发

小小故障排查三天,早用上可观测性哪来这么多麻烦事!

最近在思考MDD结合SRE,花了两周的时间打造了小程序端的可观测平台,接下来和大家分享一下整个心历路程。谈谈我的一些启发,顺便谈谈当工程师具备MDD意识后,是否能如虎添翼。事情的背景是这样的,2月10日,好大夫部分小程序用户投诉上传图片失败。整个排查过程有10多人参加,排查了三天才有结论。我们来回顾一下当时的情况。一、一团乱麻,谁人背锅侠?大家知道上传图片失败问题,一直是个老大难,因为失败的原因太多了。对一般的工程师而言,整个流程可能是一个黑盒模型,缺少一个抓手去分析问题。这时候工程师大脑中会有一堆问号。简单说一下这个问题是如何排查的。怀疑用户网络问题,联系用户切换网络尝试依然失败。加上分析K

小小故障排查三天,早用上可观测性哪来这么多麻烦事!

最近在思考MDD结合SRE,花了两周的时间打造了小程序端的可观测平台,接下来和大家分享一下整个心历路程。谈谈我的一些启发,顺便谈谈当工程师具备MDD意识后,是否能如虎添翼。事情的背景是这样的,2月10日,好大夫部分小程序用户投诉上传图片失败。整个排查过程有10多人参加,排查了三天才有结论。我们来回顾一下当时的情况。一、一团乱麻,谁人背锅侠?大家知道上传图片失败问题,一直是个老大难,因为失败的原因太多了。对一般的工程师而言,整个流程可能是一个黑盒模型,缺少一个抓手去分析问题。这时候工程师大脑中会有一堆问号。简单说一下这个问题是如何排查的。怀疑用户网络问题,联系用户切换网络尝试依然失败。加上分析K