草庐IT

sre_constants

全部标签

一次棘手的容器故障,我终于知道SRE有多重要了……

前言:关于什么是SRE,以及在业务上有哪些具体的输出,网上资料众多但都只是对基本概念做描述。那容器SRE究竟要怎么结合业务,得物容器SRE又有哪些最佳实践,本文就得物容器SRE的一些事情向大家做介绍。一、SRE定义稳定性工程师,用软件工程解决复杂的运维问题,50%的时间用于运维琐事,50%的时间用于软件工程保障业务的稳定性和可扩展性,包括开发监控,日志,告警系统,业务性能调优等二、对于SRE的理解1、SRE的监控和Oncall应急响应(1)一个团队Oncall至多需要两个人(另外一个是新手shadow),oncall人员需要具备以下能力:①清晰的问题升级路线②清晰定义的应急事件处理步骤③监控巡

一次棘手的容器故障,我终于知道SRE有多重要了……

前言:关于什么是SRE,以及在业务上有哪些具体的输出,网上资料众多但都只是对基本概念做描述。那容器SRE究竟要怎么结合业务,得物容器SRE又有哪些最佳实践,本文就得物容器SRE的一些事情向大家做介绍。一、SRE定义稳定性工程师,用软件工程解决复杂的运维问题,50%的时间用于运维琐事,50%的时间用于软件工程保障业务的稳定性和可扩展性,包括开发监控,日志,告警系统,业务性能调优等二、对于SRE的理解1、SRE的监控和Oncall应急响应(1)一个团队Oncall至多需要两个人(另外一个是新手shadow),oncall人员需要具备以下能力:①清晰的问题升级路线②清晰定义的应急事件处理步骤③监控巡

揭秘运维工程师职业生涯天花板 SRE (Site Reliability Engineering) 的工作职责

SRE到底是什么?这是一个最早由Google提出的概念,我的理解是,用软件解决运维问题。标准化,自动化,可扩展,高可用是主要的工作内容。这个岗位被提出的时候,想解决的问题是打破开发人员想要快速迭代,与运维人员想要保持稳定,拒绝频繁更新之间的矛盾。SRE目前对于招聘来说还是比较困难。一方面,这个岗位需要一定的经验,而应届生一般来说不会有运维复杂软件的经历;另一方面就是很多人依然以为这就是“运维”工程师,认为做的是一些低级重复的工作,对这个工作有排斥。最根本的,其实这个岗位寻找的要么是具有运维经验的开发人员,要么是具有软件开发技能的运维工程师。所以比较难以找到合适的人。在现实生活中,不同公司的SR

揭秘运维工程师职业生涯天花板 SRE (Site Reliability Engineering) 的工作职责

SRE到底是什么?这是一个最早由Google提出的概念,我的理解是,用软件解决运维问题。标准化,自动化,可扩展,高可用是主要的工作内容。这个岗位被提出的时候,想解决的问题是打破开发人员想要快速迭代,与运维人员想要保持稳定,拒绝频繁更新之间的矛盾。SRE目前对于招聘来说还是比较困难。一方面,这个岗位需要一定的经验,而应届生一般来说不会有运维复杂软件的经历;另一方面就是很多人依然以为这就是“运维”工程师,认为做的是一些低级重复的工作,对这个工作有排斥。最根本的,其实这个岗位寻找的要么是具有运维经验的开发人员,要么是具有软件开发技能的运维工程师。所以比较难以找到合适的人。在现实生活中,不同公司的SR

S11总决赛那晚,B站SRE为活动保障都做了些啥?

一、背景B站每年都会有多次大型活动,如拜年纪、最美的夜、LOL全球总决赛、电商626、919秒杀等其他活动。其中最美的夜和LOL全球总决赛是在线流量最高的活动。在S11总决赛过程中,全站整体平稳运行,无基础设施、组件故障和服务核心链稳定性故障,抗住了远超预期的在线人数和流量,直播同时在线人数突破千万。一场成功的活动保障离不开多个团队的共同付出和努力。SRE在背后是如何支持保障这些活动并不断完善我们的活动保障体系的呢?接下来就为大家揭晓。二、活动场景案例1在SRE的某次活动保障中,突然听到运营同学说某某时刻微信、头条等APP会上线活动的推广链接。考虑到微信和头条APP的用户量级,SRE担心新用户

S11总决赛那晚,B站SRE为活动保障都做了些啥?

一、背景B站每年都会有多次大型活动,如拜年纪、最美的夜、LOL全球总决赛、电商626、919秒杀等其他活动。其中最美的夜和LOL全球总决赛是在线流量最高的活动。在S11总决赛过程中,全站整体平稳运行,无基础设施、组件故障和服务核心链稳定性故障,抗住了远超预期的在线人数和流量,直播同时在线人数突破千万。一场成功的活动保障离不开多个团队的共同付出和努力。SRE在背后是如何支持保障这些活动并不断完善我们的活动保障体系的呢?接下来就为大家揭晓。二、活动场景案例1在SRE的某次活动保障中,突然听到运营同学说某某时刻微信、头条等APP会上线活动的推广链接。考虑到微信和头条APP的用户量级,SRE担心新用户

万字经验帖:不具备这九种能力,建议不要做SRE

SRE最早是由Google提出的概念,其大概的意思就是:以标准化、自动化、可扩展驱动维护,用软件开发解决运维难题。这个岗位面世的时候,其根本要解决的问题就是打破传统研发人员快速迭代而引发的业务不稳定性,用以保证业务维护侧重的服务质量以及稳定性之间的平衡。不同公司的SRE定位是不同的,可能某些公司的运维岗位也是SRE,以此,不能以偏概全,国内的SRE基本是以岗位来区分的,比如,有负责网络的SRE,有负责DBA的SRE,有专门负责业务的SRE,还有什么安全SRE等等。就谷歌所提到的SRE的理解来讲,基本都是以服务质量稳定为基线的维护工程师,只是对于SRE的要求是苛刻的,下面是我的个人理解:第一:技

万字经验帖:不具备这九种能力,建议不要做SRE

SRE最早是由Google提出的概念,其大概的意思就是:以标准化、自动化、可扩展驱动维护,用软件开发解决运维难题。这个岗位面世的时候,其根本要解决的问题就是打破传统研发人员快速迭代而引发的业务不稳定性,用以保证业务维护侧重的服务质量以及稳定性之间的平衡。不同公司的SRE定位是不同的,可能某些公司的运维岗位也是SRE,以此,不能以偏概全,国内的SRE基本是以岗位来区分的,比如,有负责网络的SRE,有负责DBA的SRE,有专门负责业务的SRE,还有什么安全SRE等等。就谷歌所提到的SRE的理解来讲,基本都是以服务质量稳定为基线的维护工程师,只是对于SRE的要求是苛刻的,下面是我的个人理解:第一:技

一夜颠覆60%旧体系,腾讯的SRE运维转型实践

今天会重点跟大家交流我们SRE团队转型的背景和实施的路径,以及分享我们SRE体系的框架和思路,也会提及个人的一些思考。整个框架思路我们并不是一开始就设计出来的,而是面临着诸多的问题,围绕着解决这些问题一步一步演变过来的。一、云原生运维转型之道1、业务背景如果大家有玩过游戏的话,对这个界面应该不陌生。我们团队主要负责腾讯内部游戏营销活动的运维支撑,在线营销活动除了为玩家提升游戏体验以外,也为游戏项目组在拉新、活跃,甚至是购买道具,都提供相关的营销活动、运营事件等商业化的支持。2、微服务架构这是我们的一个技术架构。从这个技术架构里我们可以看出,云原生已经变成一个大趋势了,我们团队95%以上都实现了

一夜颠覆60%旧体系,腾讯的SRE运维转型实践

今天会重点跟大家交流我们SRE团队转型的背景和实施的路径,以及分享我们SRE体系的框架和思路,也会提及个人的一些思考。整个框架思路我们并不是一开始就设计出来的,而是面临着诸多的问题,围绕着解决这些问题一步一步演变过来的。一、云原生运维转型之道1、业务背景如果大家有玩过游戏的话,对这个界面应该不陌生。我们团队主要负责腾讯内部游戏营销活动的运维支撑,在线营销活动除了为玩家提升游戏体验以外,也为游戏项目组在拉新、活跃,甚至是购买道具,都提供相关的营销活动、运营事件等商业化的支持。2、微服务架构这是我们的一个技术架构。从这个技术架构里我们可以看出,云原生已经变成一个大趋势了,我们团队95%以上都实现了