草庐IT

全链路根因定位,虎牙APM可观测平台建设实践

随着虎牙业务量的大规模增长,分布式应用服务架构日益复杂,排障定位变得越来越困难,原有传统监控方式已无法跟上业务发展需要。虎牙新建设了一套APM平台,结合虎牙直播业务特性,也紧靠业界标准做了高度自研扩展,帮助研发和运维提高工作效率,保障线上应用服务稳定运行。本次分享将通过以下几个部分来介绍整体思路和实践过程:一、项目背景图片1.当时痛点虎牙当时各团队的应用监控方案多样,有自建应用接口日志采集监控,也有直接使用各类开源Trace系统,这样就导致跨团队的链路无法相互打通,同时也缺乏统一的产品设计,极大地影响了整体排障效率。2.切入点从客户端到后端分布式应用服务的全链路打通,提供透明零成本的接入方案快

虎牙直播在微服务改造的实践总结

博主介绍:✌全网粉丝4W+,全栈开发工程师,从事多年软件开发,在大厂呆过。持有软件中级、六级等证书。可提供微服务项目搭建与毕业项目实战、定制、远程,博主也曾写过优秀论文,查重率极低,在这方面有丰富的经验✌博主作品:《Java项目案例》主要基于SpringBoot+MyBatis/MyBatis-plus+MySQL+Vue等前后端分离项目,可以在左边的分类专栏找到更多项目。《Uniapp项目案例》有几个有uniapp教程,企业实战开发。《微服务实战》专栏是本人的实战经验总结,《Spring家族及微服务系列》专注Spring、SpringMVC、SpringBoot、SpringCloud系列、

虎牙实时计算平台服务的SLA之路

导读:随着实时计算的发展,越来越多的业务利用实时计算平台开发实时数据。与离线任务不同,实时任务需要更小的时延和更高的可靠性,如何更好地保障实时数据的质量是每个实时计算平台都需要解决的问题。本次的分享题目为虎牙实时计算SLA实践之路,主要分为以下几个部分:平台介绍核心SLA定义核心能力建设未来展望--01平台介绍1.发展历程虎牙业界领先的实时内容创造与直播互动能力离不开有力的基础支撑,实时计算平台作为一个关键技术,发展历程主要分为四个阶段:混沌期:在2019年之前,业务各自搭建实时计算引擎,导致技术栈的不统一和资源利用率不高。统一期:2019年之后统一使用Flink,提供集中任务和资源的管理。主

虎牙实时计算平台服务的SLA之路

导读:随着实时计算的发展,越来越多的业务利用实时计算平台开发实时数据。与离线任务不同,实时任务需要更小的时延和更高的可靠性,如何更好地保障实时数据的质量是每个实时计算平台都需要解决的问题。本次的分享题目为虎牙实时计算SLA实践之路,主要分为以下几个部分:平台介绍核心SLA定义核心能力建设未来展望--01平台介绍1.发展历程虎牙业界领先的实时内容创造与直播互动能力离不开有力的基础支撑,实时计算平台作为一个关键技术,发展历程主要分为四个阶段:混沌期:在2019年之前,业务各自搭建实时计算引擎,导致技术栈的不统一和资源利用率不高。统一期:2019年之后统一使用Flink,提供集中任务和资源的管理。主

虎牙SRE谈可观测:如何做到比用户和老板更早发现业务异常?

一分钟精华速览可观测能力是指在复杂的软件系统中能及时、准确感知到服务状态,特别是异常或故障的发生,确定异常的影响范围、异常部位边界、判定异常点位、并由相关人员或软件做出准确决策的能力。本文作者结合虎牙SRE实践及20余年架构、研发、运维经验,重点讲述如何设计和建设观测能力,做到分钟级感知故障、定位和快恢。作者介绍《SRE原理与实践》作者张观石TakinTalks稳定性社区专家团成员,前虎牙SRE负责人,资深运维专家和架构师,拥有20年软件开发、架构、运维、SRE经验。历任项目研发负责人、SRE负责人、架构师,事故管理委员会委员、基础保障部架构师委员会委员。熟悉基于微服务架构的直播业务、音视频业

虎牙SRE谈可观测:如何做到比用户和老板更早发现业务异常?

一分钟精华速览可观测能力是指在复杂的软件系统中能及时、准确感知到服务状态,特别是异常或故障的发生,确定异常的影响范围、异常部位边界、判定异常点位、并由相关人员或软件做出准确决策的能力。本文作者结合虎牙SRE实践及20余年架构、研发、运维经验,重点讲述如何设计和建设观测能力,做到分钟级感知故障、定位和快恢。作者介绍《SRE原理与实践》作者张观石TakinTalks稳定性社区专家团成员,前虎牙SRE负责人,资深运维专家和架构师,拥有20年软件开发、架构、运维、SRE经验。历任项目研发负责人、SRE负责人、架构师,事故管理委员会委员、基础保障部架构师委员会委员。熟悉基于微服务架构的直播业务、音视频业