摘要:华为云容器SRE在海量集群和容器运维实践中,从智能运维能力、确定性场景恢复等多方面总结出一套确定性运维实践,以应对云原生业务快速增长。
本文分享自华为云社区《云原生容器高可用运维能力应用》,作者:陈勇/刘志超/袁文峰。
云原生场景下,对架构高可用、应用高可用、基础云平台高可用提出了更高的要求,企业以及云平台都在不断致力于稳定性建设。但面对海量复杂的客户业务场景,业务会不可避免的遇到非预期的故障,比如配置异常、应用过载、底层网络异常、硬件故障等,当这些确定性故障场景出现时,如何做到快速诊断和快速恢复,如何在故障发生前提前识别风险、消除隐患,如何在故障发生时监控准确发现定界,一直是云计算厂商面临的困难问题之一。
1、华为云云原生容器年复合增长快,需要维护的站点和k8s集群多,复杂的海量客户应用场景给运维工作带来巨大挑战。
2、云原生便捷的快速部署能力、可伸缩性使得用户业务容器、集群结构等无时无刻不在变化之中,单局点节点变化非常快。
3、云原生社区丰富的应用实践以及容器开放的部署方式,用户易出现配置类错误,导致故障发生。
4、面对客户不同的业务场景、集群类型,当前社区在监控准确率、故障快速定位恢复等通用运维能力尚无有效的解决方案。
1、现网客户请求事件同比增长,单纯依赖人力的运维已无法支撑业务的快速增长,以软件工程的手段解决现网运维中的实际困难,构建贴合业务特征的自动化运维平台。
2、将业务形态与业界开源方案相结合,构建可靠、可信的租户监控能力
3、打通运维能力产品化落地路径,将实践可靠的运维能力固化到产品中,提升产品易用性以及客户自运维能力。
>> 故障预防
“故障预防"在确定性运维中是很重要的一环,可以有效避免客户业务发生故障。风险识别在故障预防中极为有效的一种手段,客户业务的高可用部署、容器的资源配置合理性、依赖各服务的使用配额、集群和节点分配和使用率等,均会导致业务存在潜在风险,完备、及时的有效风险识别可消除客户业务隐患,防止应用故障。
a. 结合历史现网故障以及容器业务架构,梳理关键风险场景和有效监控指标。
b. 基于专家经验、历史故障场景、结合租户历史行为,构建风险指标判断识别系统,自动检测租户容器场景集群风险项,为集群构建集群画像,识别集群风险。
c. 风险识别能力实现原子化对接TSC平台,赋能客户经理。
d. 风险识别联动周边,推动产品设计改进、引导租户提前消除、支撑SRE风险收编以及故障快速恢复。
周级别自动识别全网集群风险、分钟级单集群深度自动巡检,数据入湖并被TSC订阅消费。
监控发现”旨在先于客户发现,在底层ECS故障、网络故障发生时,及时发现故障,及时自愈或通知到客户,尽最大可能短时间止损,减少客户的损失。另一方面,在真正客户业务受损时,监控要做到快速判断故障影响面,做到应用链路透视监控,可以辅助快速定位至故障点。
容器现网warroom提前发现率显著提高。
>> 快速定位恢复
“快速定位恢复”从定位和止损两方面出发,目标是降低故障发生后的MTTR,减少客户业务损失。通过历史海量用户故障输入,明确故障确定性场景,针对这些确定性故障场景,建设自动诊断能力和一键恢复预案能力。
a. 基于CMC/AOM/Promtheus/CLS/datahub等构建容器场景全指标监控接入.
b. 结合容器场景业务生命周期以及现网故障,构建容器域故障推导模型。
c. 结合监控数据,业务性,CLS日志等构建故障推导原子能力。
d. 基于CAR打造故障定位编排引擎。
e. 结合故障模式以及应急预案,降故障恢复动作平台化。
未来华为云云原生容器体量会更快速的增长,k8s社区新特性也在快速迭代,跨云跨地域业务部署是大趋势,如何在云原生时代为客户业务提供稳定的运维保障能力,如何在不断指数式增长的容器规模下,构建统一确定性运维能力是我们的方向。
华为云通过海量复杂云原生客户业务场景,从风险预防、数据面监控、故障自动诊断、确定性场景预案恢复等方面,识别云原生客户云上确定性业务使用和故障场景,持续构建智能运维能力和确定性场景恢复能力,保障客户云上业务稳定,以应对云原生业务快速增长。
对于具有离线功能的智能手机应用程序,我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl
我构建了两个需要相互通信和发送文件的Rails应用程序。例如,一个Rails应用程序会发送请求以查看其他应用程序数据库中的表。然后另一个应用程序将呈现该表的json并将其发回。我还希望一个应用程序将存储在其公共(public)目录中的文本文件发送到另一个应用程序的公共(public)目录。我从来没有做过这样的事情,所以我什至不知道从哪里开始。任何帮助,将不胜感激。谢谢! 最佳答案 无论Rails是什么,几乎所有Web应用程序都有您的要求,大多数现代Web应用程序都需要相互通信。但是有一个小小的理解需要你坚持下去,网站不应直接访问彼此
我尝试运行2.x应用程序。我使用rvm并为此应用程序设置其他版本的ruby:$rvmuseree-1.8.7-head我尝试运行服务器,然后出现很多错误:$script/serverNOTE:Gem.source_indexisdeprecated,useSpecification.Itwillberemovedonorafter2011-11-01.Gem.source_indexcalledfrom/Users/serg/rails_projects_terminal/work_proj/spohelp/config/../vendor/rails/railties/lib/r
刚入门rails,开始慢慢理解。有人可以解释或给我一些关于在application_controller中编码的好处或时间和原因的想法吗?有哪些用例。您如何为Rails应用程序使用应用程序Controller?我不想在那里放太多代码,因为据我了解,每个请求都会调用此Controller。这是真的? 最佳答案 ApplicationController实际上是您应用程序中的每个其他Controller都将从中继承的类(尽管这不是强制性的)。我同意不要用太多代码弄乱它并保持干净整洁的态度,尽管在某些情况下ApplicationContr
我是一个Rails初学者,但我想从我的RailsView(html.haml文件)中查看Ruby变量的内容。我试图在ruby中打印出变量(认为它会在终端中出现),但没有得到任何结果。有什么建议吗?我知道Rails调试器,但更喜欢使用inspect来打印我的变量。 最佳答案 您可以在View中使用puts方法将信息输出到服务器控制台。您应该能够在View中的任何位置使用Haml执行以下操作:-puts@my_variable.inspect 关于ruby-on-rails-如何在我的R
我在app/helpers/sessions_helper.rb中有一个帮助程序文件,其中包含一个方法my_preference,它返回当前登录用户的首选项。我想在集成测试中访问该方法。例如,这样我就可以在测试中使用getuser_path(my_preference)。在其他帖子中,我读到这可以通过在测试文件中包含requiresessions_helper来实现,但我仍然收到错误NameError:undefinedlocalvariableormethod'my_preference'.我做错了什么?require'test_helper'require'sessions_hel
是否可以在应用程序中包含的gem代码中知道应用程序的Rails文件系统根目录?这是gem来源的示例:moduleMyGemdefself.included(base)putsRails.root#returnnilendendActionController::Base.send:include,MyGem谢谢,抱歉我的英语不好 最佳答案 我发现解决类似问题的解决方案是使用railtie初始化程序包含我的模块。所以,在你的/lib/mygem/railtie.rbmoduleMyGemclassRailtie使用此代码,您的模块将在
无论您是想搭建桌面端、WEB端或者移动端APP应用,HOOPSPlatform组件都可以为您提供弹性的3D集成架构,同时,由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台(桌面/WEB/APP,而且某些客户端是“瘦”客户端)快速、方便地将数据接入到3D应用系统的解决方案,并且当访问数据时,在各个平台上的性能和用户体验保持一致,HOOPSPlatform将帮助您完成。利用HOOPSPlatform,您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品,HOOPSSDK包含的技术有:快速且准确的CAD
前言作为一名程序员,自己的本质工作就是做程序开发,那么程序开发的时候最直接的体现就是代码,检验一个程序员技术水平的一个核心环节就是开发时候的代码能力。众所周知,程序开发的水平提升是一个循序渐进的过程,每一位程序员都是从“菜鸟”变成“大神”的,所以程序员在程序开发过程中的代码能力也是根据平时开发中的业务实践来积累和提升的。提高代码能力核心要素程序员要想提高自身代码能力,尤其是新晋程序员的代码能力有很大的提升空间的时候,需要针对性的去提高自己的代码能力。提高代码能力其实有几个比较关键的点,只要把握住这些方面,就能很好的、快速的提高自己的一部分代码能力。1、多去阅读开源项目,如有机会可以亲自参与开源
导读:随着叮咚买菜业务的发展,不同的业务场景对数据分析提出了不同的需求,他们希望引入一款实时OLAP数据库,构建一个灵活的多维实时查询和分析的平台,统一数据的接入和查询方案,解决各业务线对数据高效实时查询和精细化运营的需求。经过调研选型,最终引入ApacheDoris作为最终的OLAP分析引擎,Doris作为核心的OLAP引擎支持复杂地分析操作、提供多维的数据视图,在叮咚买菜数十个业务场景中广泛应用。作者|叮咚买菜资深数据工程师韩青叮咚买菜创立于2017年5月,是一家专注美好食物的创业公司。叮咚买菜专注吃的事业,为满足更多人“想吃什么”而努力,通过美好食材的供应、美好滋味的开发以及美食品牌的孵