草庐IT

统信软件高级系统研发工程师:sysOM 在系统可靠性与安全上实践

一、系统可靠性SRE是判断系统是否可靠、可用、有效重要标准,它包括:服务水平指标SLI:衡量服务使用情况量化指标。比如IO读写速率、网络延迟。通常量化指标会转换为比率、平均值或百分比。服务水平目标SLO:一段时间、区间内的目标。SLO的表达式通常为:SLI服务水平协议SLA:测量指标应与商业目标密切相关。稳定性99.99%和99.999%在大部分情况下对用户体验差异不大,但每增加一个9,会显著增加成本。基于时间的可用性=可用时间/总时间,但该指标通常意义不大。比如某订单系统在7天内有1小时不可用,其影响将是致命的。基于成功率的可靠性=成功请求数/总请求数。选择何种可靠性级别主要依赖于用户风险承