
我们邀请到了阿里云混合云监控平台(Sunfire)团队负责人王肇刚来给我们分析下阿里背后的数字化业务运维安全工程标准及解决方案。
本次分享涵盖了全新发布的数字化业务运维安全工程标准、安全生产解决方案,以及全新升级的产品能力:包括了全栈统一运维、全景监控和全周期安全工程相关产品能力的介绍,也包含了对产品解决方案在客户侧落地的最佳实践分享。

在数字化转型的时代背景下,企业在未来5年内将会发生3个变化:业务规模变大、技术变复杂、组织职能变得更加标准化。
规模会越来越大,从单个业务上云到多个业务上云,云上资源从百台到千台。这些变化带来的挑战是技术风险导致的影响面扩大、范围变广、修复成本变高。如果企业核心业务的稳定性出现了波动乃至出现故障,轻则影响体验、口碑并带来客户投入,重则导致巨大经济损失,甚至威胁企业的生存。
企业的技术栈越来越复杂,从单云到多云,从专有云到混合云;从传统开发到使用新技术开;企业IT系统的基础架构也是多云环境、多技术栈并存;不同企业的数据的分析、治理、存储和展现能力也存在差异。这些复杂性带来的挑战是:故障多、定位难、稳定性不可控。已知故障报警量多、未知故障潜伏期长,定界定位慢、响应慢、恢复慢,故障无法根除。而故障的重复发生会进一步导致影响时间、范围和发生频率不可控。
企业组织架构越来越标准化,组织分工标准化,即职责权定义清晰;人员能力标准化,即专业运维知识能力、操作能力、决策能力;协同标准化,即上下级、同级、内外协作标准化;决策架构标准化,即决策架构变化不会的导致技术运维能力的变化。对于刚进入数字化企业来说,组织完全没有达到这个标准能力,带来的挑战就是:协同难,扯皮多、定责难;山头文化,跨组织跨团队协作难;出问题,找不到责任人;责任不清,问题无人解决。
面向这些变化与挑战,在未来5年里,企业云上业务的“可靠性”和“连续性”成为企业发展决定性因素。为了助力企业上云、用云过程中应对这些变化和挑战,阿里云混合云平台推出了混合云新一代运维标准:数字化业务运维系统工程,即“全栈统一运维”、“全景可观测”、“全周期安全工程” 三大能力,系统性保障数字化业务安全可靠。

我们的解决方案涵盖了从监控和预警,到应急处理,到日常持续改进的全过程闭环。即产品能力和服务能力从防、监、管、控四个方面进行构建,全方位保障数字化业务的连续性和可靠性。
从代码源头开始,严控代码质量和上线标准,通过主动防御型策略、专家知识库、智能风险检测、恶意识别、风险审计、高危拦截、集中统一管控、高可用架构等构建主动且完备的事前防护体系,将业务故障拦于门外。
我们的产品提供全景监控(业务/应用/云平台)能力。全面支持混合云形态下的客户侧监控需求;提供智能监控(智能基线、黄金指标异常检测等)能力,精准高效地发现故障、并迅速判定故障的级别和影响面,并对故障原因作出定界。同时,我们也提供报警处理和监控运维联动能力,智能化地收敛与分级报警,并联动运维平台触发故障自愈和应用弹性扩/缩容。
面向双态的业务应用运维,提供业务中台运维、资源调度、作业支撑、集中集成能力,解决企业运维看、管、控的需求,并实现日常运维数字化、智能化。我们利用应用生命周期中产生的海量数据(系统,监控,日志,调用链路等数据),通过平台大数据分析以及机器学习,主动探测发现系统存在的风险,并且提供自动快速应对能力。可以大幅提升企业整体运维效率。
通过应急控制能力,快速解决问题,及时应急恢复止损,控制故障影响面。并对原因复查改进,加固事前主动防御,并常态进行常态化有效性验证(演练、压力测试),从而形成不断迭代,持续提升的安全生产能力。

如图所示,安全生产解决方案需要非常多的产品能力支持,图上显示了支持解决方案背后的产品能力。这是若干年来支持阿里巴巴双十一的产品能力,也经历了多年双十一和日志技术风险战火的洗礼,目前也从属于阿里云云效监控运维领域的产品序列,提供给各位企业客户使用。

监控是系统的眼睛,我们通过眼睛看到问题才能做定界和处理。我们监控平台的设计理念是智能化全景监控平台,是围绕阿里巴巴平台技术风险体系中的1-5-10理念来设计的。我们通过业务监控发现问题并触发应急响应,这和传统运维理念中对系统资源的监控是有差异的。阿里集团的应急响应不会是因为某一个CPU温度过高、某一个磁盘使用率过高或者IO过高导致的系统级指标告警引起的。阿里集团有千万级别的线上容器和主机,也有千万级别的监控项和报警。阿里集团监控是以业务监控触发为核心,即业务监控触发报警以后,需要有高效的事件处理中心产品能力,把系统级指标报警、应用级报警和业务级报警有机关联归集起来,把业务报警进行判定和升级送入我们的故障台,故障台向集团发应急通告,整个闭环是从发现到处理到故障升级。发生故障之后,我们可以马上进行问题的定界并恢复,全景监控可以把问题锁定到某一个环节执行预案,再通过运维平台发起预案执行让系统恢复稳定,这个故障就被消灭在萌芽阶段了。

在业务指标监控领域,我们有一个超级武器,秒级监控。做过监控的同学都有体感,监控系统的数据迟延在秒级粒度时,监控曲线往往会有很多抖动。因此,秒级监控必须有智能化的监控策略作为辅助,否则会造成大量误报。把之前的智能基线能力全新升级为黄金指标异常检测能力后,系统会帮我们简便的自动化配出黄金指标,能监控业务的量、率和耗时以及相应的组合策略,不需要配置人工预制,通过机器学习的算法就能自动化通过监控发现业务问题。
今年的阿里巴巴双十一预售已经开始,消费者的热情高涨,特别是薇娅和李佳琪两个大V做的直播给我们的系统带来了很大的流量冲击,淘宝的核心业务指标也确实出现了一个微小的波动。我们的秒级监控和智能报警的策略耗时47秒,从事情的发生到最后全局预警通告只花了47秒,触发了我们系统的快恢,这个故障还没有到故障级别就被消灭在无形之中,以至于很多消费者都来不及感知。
我们的监控能力会尽可能先于用户发现业务的问题。我们在业务链路的描述上和在大屏的展示上都有全新的能力升级,这背后是自研的大规模、分布式监控实施的引擎和智能化工程策略框架的支持。

业务监控发现问题后做定界,这时就要看运行业务的应用和云资源的状态。我们全新升级应用的发现能力、应用链追踪的能力和云资源监控能力后可以监控客户应用、从业务指标到业务状态、云资源的状态,应用调用其他应用、其他中间件的状态、分析链路、智能化发现应用、第三方组件云资源的关联。
在云原生的理念下,企业采用K8S作为自己PAAS层的运维方式,能够被开源的Prometheus监控的对象可以直接被Sunfire平台监控并享受到Sunfire智能化的策略和强大的监控计算及存储能力。

发现问题后需要高效处理,而高效的应急处理需要事件中心和故障台一起联动,让事件有效被管理降低误报减少时间损耗,也可以通过故障台进行高效的应急和响应。经过故障台管理后,很多故障处理过程从开始的零乱不堪到最后整齐高效处理,处理过程由不见变成可观察可度量。

上图是Normandy平台的全新升级,面向混合云客户做到支持跨云管理的先进架构,自动化运维发布、自动化管理、扩缩容能力,也支持了阿里双十一海量应用运维的挑战。

运维平台在智能化层面做了三大升级:一是弹性扩缩容能力。应用级智能的弹性扩缩容,根据应用程序的状态指导扩缩容是运维过程中最优的选择,我们Normandy平台就能提供这样的能力。针对发布过程中的风险,我们提出无人值守发布的理念,在发布过程中监控发现潜在问题。我们在灰度发布进行到很小范围的时候就可以发现问题,进行拦截避免问题扩大化。真正出现问题的时候平台可以执行原子的自愈能力和开放的能力扩展,做到跟客户的场景相结合,完成客户场景下的快恢操作。

有时需要对于业务和应用做全局态势的感知,我们有运行指挥大屏的能力,对运行系统的数据、工单数据和报警数据做展现,结合客户场梳理到全局态势的感知。在大型活动保障时做运营指挥参谋,这跟阿里巴巴双十一指挥大屏的理念是一致的。

大家会在新闻中看到,“删库跑路”这类新闻。说明我们的在运维安全层面面临了很大的风险,安全工程平台支持多云平台下运维操作集中管控和安全审计、风险的控制。我们称其为“护城河”,它是我们的核心能力,可以集中管控运维的管理和通路并且符合国家安全等保的标准。


上图是和我们和国家电网做的战略合作。国家电网的营销系统1.0的传统架构迁移到2.0面向混合云的架构,大家在日常生活中交电费、查电费、充值电费等都可以通过小程序在云端运行了。国网营销2.0系统在云上是由全景监控平台Sunfire对数百个应用、数千个业务指标进行全面的监控。国网营销2.0系统的报警处理机制以业务监控为入口,快速定界和处理的模式。这种模式使日常的报警量变少了,比如几个月前出现了线上的风险,我们高效的发现触发应急解决问题,国网领导也给我们平台发了感谢信,是对我们很好的肯定和支持。

上图是我们跟证券的头部企业进行合作的应用指挥的案例。这完成了证券指挥大屏在运行企业的落地。在大屏上有证券企业的核心业务流程,从整体的业务看到了应用和资源,线上交易出现问题可以通过多维下算的方式找到问题出现的细分业务领域,能看到运营的状态和云资源利用的状态。
我和客户共建大屏时,首先对客户侧所有的场景进行梳理抽象出业务场景分发到大屏、中屏上,让客户进行不同的问题定位,设计成千上万的业务指标汇聚在运营大屏上,背后是根据客户异构的数据源,不同实效性的数据做自动归置和对齐,这种高效实时的处理机制是我们在证券行业非常好的落地。
本次内容就到这里,我们也希望在我们的新一代运维安全工程标准指引下,我们的安全生产解决方案和产品能力能够支持和服务更多的企业客户,一起让企业的云上业务运维**更加高效、更加可靠、更加稳定!
点击下方链接,查看AIOps智能监控解决方案!
https://www.aliyun.com/solution/aiops/index?spm=5176.21213303.1391221.1.29ca3edaL8ftAA
了解更多关于云效DevOps的最新动态,可微信搜索关注【云效】公众号;
彩蛋:公众号后台回复【指南】,可获得《阿里巴巴DevOps实践指南》&《10倍研发效能提升案例集》;
看完觉得对您有所帮助别忘记点赞、收藏和关注呦;
所有技术终将演变为基础设施。2022年6月11日,科创人·数智未来私董会第4期活动在线举办,本次活动由科创人、北航投资、方云智能联合举行;微软(中国)首席技术官韦青担任本期活动主讲嘉宾,携手14位企业高级决策者围绕数智未来课题进行深度探讨。科创人·数智未来私董会第3期活动回顾|《狗尾巴的故事-数智时代的第一性原理》与会嘉宾依次是:微软(中国)CTO韦青、领鹊科技创始人&CEO张志祥、食方科技创始人&CEO黄龚、中科云创创始人&CEO周北川、北航投资总经理王剑飞、中煤信息技术首席专家黄韶杰、天云数据创始人&CEO雷涛、中国农业银行科技与产品管理局信息安全与风险管理处处长何启翱、索迩科技创始人&C
简介:阿里云研究院,甄选了2021-2022年度的10份重磅报告,分别从数字经济、行业转型、数字县域等领域,尝试解读、并推动各行各业的转型升级,展望中国数字经济的未来,迎接数字经济发展的春天。导语我们正处在复杂的历史节点中,气候变化加剧、地缘政治动荡、局部战争冲突持续不断,尤其无情的新冠疫情长时间席卷全球,在很多国家尚未得到有效控制,全球感染人数超过5亿,几乎所有的国家和地区都受到深度影响。在全球经济一片萧条之中,数字经济展现出独特的魅力,数字化转型也成为各行各业的共识。疫情在某种程度上加速了全球产业数字化转型的步伐,数据成为了主要生产要素,也是数字时代的核心基础资源。基于数据资源,传统产业的
近日,星环科技在线上举办了2022年春季新品发布周,带来数字底座、数字化转型、国产替代、数据安全与流通四大专题,60余场演讲。来自金融、能源、交通、政务、高校、运营商等多个领域的客户、合作伙伴现身说法,分享数字化转型成功经验。郑州商品交易所科技监管负责人杨和国结合自身在金融科技领域的探索和经验,带来了《数智一体化助力交易所数字化转型》主题演讲。近年来国家高度重视大数据、人工智能等技术的研究应用,也明确了国家大数据战略,把大数据作为基础性战略资源。作为证监会体系下的交易所,郑州商品交易所(以下简称郑商所)正在推动数字资源的开发应用,以及转型升级。同时,证监会从2017年开始也相继发布了多个关于大
编辑| 阿冒 设计| 沐由桃李不言,下自成蹊。尽管不像很多科技公司那样言必称“生态”,但作为亚太本土最大的企业云服务与软件提供商的用友,其历经34年的成长历程,本身就是一部再生动不过的生态发展史。距今已有2000余年的西汉哲学著作《淮南子》中,就曾经一针见血地指出了生态的运用之妙:“积力之所举,则无不胜也;众智之所为,则无不成也。”在今年3月举行的2022用友生态大会上,用友全面升级生态理念,提出以“融智共创+聚力协同”,汇聚各方企业服务提供商,为客户全生命周期的数智化转型提供支撑。在2022全球商业创新大会举行之际,记者采访了用友网络副总裁、全球生态合作部总经理刘晟。“在公司最新的五大战
10月18日,博睿数据(股票代码:688229)秋季产品发布会正式发布一体化智能可观测平台BonreeONE2.0,标志着中国IT运维迈入数智融合3.0时代,是中国IT运维市场发展的重要里程碑。告别细分监控工具带来的数据孤岛困扰,真正实现工具向平台的升级,功能向能力的升级,为企业级IT运维构建端到端、一体化、智能化可观测平台,极大缩短发现问题和定位问题时间,大幅提升运维效率,释放运维工作潜能,助力企业数智化转型,提升企业核心竞争力。中国IT运维迈入数智融合3.0时代伴随着数字经济的不断深入,以云原生、Devops等为代表的新技术快速发展。技术的进步改变了各行各业的业务模式,同时随着企业数字化
突如其来的疫情为假期“续费”完毕,各行各业陆续复工,但抵抗疫情的态势依然焦灼,不管是在抗“疫”一线,还是企业、学校的工作都井然有序地进行着,这一片宁静的背后,有这两股科技力量的支撑——CDN和云主机。CDN——互联网世界的“快递服务” “快递服务”是现实生活中必不可少的服务,快递公司通过遍布各地网点、快递员及时响应用户收寄快递的需求,并将物品送到离用户最近的地方,提升用户获取物品的效率,CDN就相当于互联网世界的“快递服务”。 它可以将源站内容分发到离用户最近的节点,使用户就近取得所需内容,提高用户的响应速度和成功率,解决因分布、带宽、服务器性能带
在数字安全时代,面对日益猖獗的勒索病毒与网络攻击,中小微企业一个也不能“掉队”。数字安全的重要性众所周知,随着大数据时代的来临,数据已经成为现代企业最具价值的资产。包括云计算、大数据、5G、物联网、人工智能等众多蓬勃发展的新兴技术,本质上都是通过深入挖掘数据的潜在价值,不断推动业务流程的改进与商业模式的创新。近年来,伴随着数字经济在中国GDP中的比重不断提升,越来越多的企业都纷纷开启了数字化转型之路,这也使得数字安全的重要性随之水涨船高。一旦因为遭受病毒攻击而造成企业数据的丢失和损坏,都有可能会对企业造成难以估量的重大损失。特别是数量众多的中小微企业,由于在意识、资金、人力等方面的限制,在遭受
随着近年来技术的快速发展和应用推广,特别是数字化转型和发展作为重要议题在国家十四五规划中被正式提出,越来越多的企业和数字化解决方案服务机构开始全面思考如何启动面向未来技术重塑战略和业务模式,快速抓住技术趋势,构建具有行业竞争优势的业务战略和卓越运营能力。财务战略和管理作为企业核心战略能力,很多企业都已经深入审视自身战略、管控和财务业务,对标领先财务管理实践和数字化应用,探索适合自己的财务数字化转型路线,推进财务数字化建设,打造卓越运营能力。蓝鹰立德过去十多年有幸参与了多个行业领先企业的财务战略转型和数字化建设过程,结合我们在财务管理数字化转型方面的咨询实施经验,我们总结了集团企业财务数字化的业
数字经济时代催生了企业的“云”化发展,随着业务规模的迅速扩大,混合云和多云的部署日益增多,随之而来的各类漏洞和威胁让企业的安全防护门槛和复杂度越来越高。据腾讯安全发布的《2021年度公有云安全报告》显示,2021年腾讯安全截获的恶意软件样本总量超过5100万个,同比去年增长了近10%,平均每天截获近14万个。在行业仍在高喊“云时代,安全为王”的时候,腾讯安全已经开始着手勾勒蓝图、躬身布局,向业界展示了不凡的实力,以及一份份傲人的成绩单。在11月8日的腾讯云安全2022年度产品发布会上,“腾讯云安全中心”首次亮相,同时宣布“加固”三道安全防线——腾讯云防火墙、腾讯云WAF、腾讯云主机安全。知攻知
Vue2.x项目实战(二)内容参考链接Vue2.x全家桶Vue2.x全家桶参考链接Vue2.x项目(一)Vue2.x实现一个任务清单Vue2.x项目(二)Vue2.x实现GitHub搜索案例Vue3.x项目(三)Vue3.x实现一个任务清单文章目录Vue2.x项目实战(二)Vue2.x实现github搜索案例1、前言2、项目演示(一睹为快)3、涉及知识点4、项目详情(附源码及解析)5、写在最后的话Vue2.x实现github搜索案例1、前言如果你对vue的基础知识还很陌生,推荐先去学习一下vue基础本篇文章依旧是使用的Vue基础知识,同时新增了axios请求数据的需求,及兄弟组件间如何使用自定