草庐IT

在阿里巴巴,我们如何先于用户发现和定位 Kubernetes 集群问题?

快速发现和定位问题的能力是快速恢复系统的基石,只有先做到快速发现和定位问题,才能谈如何解决问题,尽量减少用户损失。那么如何在复杂的大规模场景中,做到真正的先于用户发现和定位问题呢?我会将我们在管理大型  Kubernetes  集群过程中快速发现和定位问题的一些经验和实践带给大家——我们是如何通过自研通用链路探测+定向巡检工具KubeProbe应对遇到的大规模集群的稳定性挑战的。链路探测: 模拟广义用户行为,探测链路和系统是否异常定向检测: 检查集群异常指标,发现未来存在或可能存在的风险点系统增强: 发现问题提速增效,根因分析发现问题之后: 后置检查和自愈,Chat-Ops01 业务背景和挑战

在阿里巴巴,我们如何先于用户发现和定位 Kubernetes 集群问题?

快速发现和定位问题的能力是快速恢复系统的基石,只有先做到快速发现和定位问题,才能谈如何解决问题,尽量减少用户损失。那么如何在复杂的大规模场景中,做到真正的先于用户发现和定位问题呢?我会将我们在管理大型  Kubernetes  集群过程中快速发现和定位问题的一些经验和实践带给大家——我们是如何通过自研通用链路探测+定向巡检工具KubeProbe应对遇到的大规模集群的稳定性挑战的。链路探测: 模拟广义用户行为,探测链路和系统是否异常定向检测: 检查集群异常指标,发现未来存在或可能存在的风险点系统增强: 发现问题提速增效,根因分析发现问题之后: 后置检查和自愈,Chat-Ops01 业务背景和挑战