草庐IT

聊聊动态基线预警,你明白了吗?

白鳝 2023-03-28 原文
基线告警是目前大部分数据库监控软件的最重要的功能之一,可以说,基线告警是运维人员的眼睛和耳朵,不过搞运维的人都为这个眼镜耳朵伤透了脑筋,甚至很多人都被铺天盖地的无效告警伤害过。

基线告警虽然实现起来很简单,也一定是有用的,不过每个系统的运行特性都不同,因此基线到底设置成多少呢是个令人头痛的事情。IO延时的告警阈值设置为50毫秒还是20毫秒呢?如果设置为20毫秒,那么经常出告警,但是系统也没啥问题。如果设置为50毫秒,有时候并发量高得时候,30多毫秒系统就出大问题了,甚至有时候IO延时50毫秒了还没问题,但是有时候才30多毫秒,系统就挂了。

另外一种情况是,我们可能运维了数十个甚至数百个大大小小的数据库,数据量差异很大,运行负载也各不相同。如果只是设计几种基线模板,适用于这么多系统,那么肯定会遇到不太合适的情况。如果能够根据每个系统的运行状态,为每个系统设置一套基线,情况会好很多,但是工作量是极大的。

另外一方面,数据库系统的基线并不是一成不变的,随着系统负载的变化,业务增长,设备的老化,基线每年都在变,总不成每年都根据系统的情况调整一次基线?那么DBA也没时间干别的事情了。

即使我们做了很多工作,基线告警依然不够准确,每条告警信息都去处置,肯定忙不过来,很多时候我们只能忽略绝大多数告警信息。那么问题又来了,在黄油定律的主导下,很可能被我们忽略的某个告警,最终真的出事了。

正是因为这个问题,在设计D-SMART的告警功能的时候,基线并不是用来报警的,系统告警台是不推送基线告警的,仅仅推送运维经验告警,而运维经验告警是基于一组规则的故障模型触发的。

虽然不需要通过基线异常来产生系统告警,不过基线告警还是反映指标是否正常的最省事的方法,在进行诊断分析时我们还是需要判断某个指标是否异常。为了避免基线阈值设置的不合理问题,指标是否异常是通过异常检测算法来判断的,并不依赖于基线模板。

虽然如此,我们在系统中还是设置了基线预警模板,并根据这个模板,自动记录基线异常的告警信息(仅仅记录,并不推送),基线产生的告警主要用于日检和月度巡检时发现系统“可能”存在的问题。

有一种更加灵活的基线,那就是动态基线。最早的动态基线的实现是为了解决每天白天和夜间不同的业务负载时某些指标的合力波动范围的问题的。或者解决工作日与非工作日,月底业务高峰期与平时业务高峰期的差异性告警问题。以前我们管理的系统比较少的时候,还可以精工细作,随着信息系统规模的不断扩大,这种精益化运维的模式极难持续。如何解决如今IT系统数量爆炸式增长时加量不加价,实现减员增效,对于大多数IT运维部门都是一个头疼的问题。如果这一切能够变成自动的,那么就可以解决一个大问题了。

上图是我们实验室的一个基线告警的截图,告警的阈值很多都是有零有整的,这些阈值并不是配置出来的,而是动态计算出来的。在实现动态基线的时候,我刚开始的设想是不设置基线模板,而是通过异常检测算法自动计算异常,发现异常就告警。不过研发部门认为这样做计算量太大,会导致Monitor任务变得不稳定。因此做了一个变通,那就是将异常检测算法改造后动态生成某个指标的基线阈值。这样处理后,Monitor在分析刚刚采集回来的数据的时候,就可以按照传统的基线模板的模式去处理了。

在配置基线告警的时候,我们引入了一个虚拟模板-“智能基线告警模板”,这个模板不需要预先配置,而是系统自动生成的。生成这个模板的规则在图数据库中以图谱的方式存储,每天固定的时间里,后台任务会自动计算这个模板所需要的阈值,然后将计算结果存储到Redis中,供Monitor做基线评估时使用。

因此当系统刚刚上线的时候,这个模板还是一个虚拟的,没有真实数据的模板,等系统跑上十天八天,数据就比较精准了,此时这个智能模板就可以发挥作用了。目前智能基线模板的功能还是BETA阶段,使用起来还不够方便。比如刚刚接入系统时还不能直接使用该模板,还需要使用常规模板,系统运行10天以后,模板数据比较准确了,才能切换。这样使用起来也不够方便,如果我们有100多套数据库,那么配置起来还是挺费劲的。

目前传统模板提供了一个对象应用功能,可以实现一键批量绑定,而智能模板是一个虚拟模板,目前在模板管理中是看不见的,因此无法实现一键绑定,后续我们将在V2.2中提供一个这样的功能。这样系统刚刚接入时可以使用传统基线模板,半个月后,再手工设置为智能基线模板。甚至今后还可以提供更为方便的模式,在设置基线模板的时候提供一个选型,选择参数,10天后自动切换为智能基线模板。

而在动态基线的自适应能力方面,也仍然有着极大的提升空间,针对不同的行业用户的不同特点,其基线计算是不同的,比如券商的核心交易系统,只有在开市期间的负载才是有意义的,你如果把其他时段的数据加入进来计算,肯定会影响计算结果的准确性。因此在系统中加入“系统特征”这个参数十分重要。“系统特征”可以微调算法,让算法更加准确。

运维自动化系统,需要带给DBA的是准确高效的报警,便捷的操作。想要做好这一点真的不易,因为大部分的开发人员都是脱离运维第一线很长时间或者甚至没有做过一天真正的运维工作。因此开发人员可能无法感知到运维人员的真实需求。做好一个运维自动化工具的项目还是比较容易的,因为客户会不断根据自己的运维习惯来提出修改意见,我们总是能把系统修改好;而要做一个好用的运维自动化产品就不易了,系统功能,使用习惯,面临的差异化的系统都让这项工作变得复杂很多。因此我们坚定的开启了社区版的发布,希望通过社区的力量,帮我们把产品打磨的更好。

有关聊聊动态基线预警,你明白了吗?的更多相关文章

  1. ruby - 在 Ruby 中动态创建数组 - 2

    有没有办法在Ruby中动态创建数组?例如,假设我想遍历用户输入的书籍数组:books=gets.chomp用户输入:"TheGreatGatsby,CrimeandPunishment,Dracula,Fahrenheit451,PrideandPrejudice,SenseandSensibility,Slaughterhouse-Five,TheAdventuresofHuckleberryFinn"我把它变成一个数组:books_array=books.split(",")现在,对于用户输入的每一本书,我想用Ruby创建一个数组。伪代码来做到这一点:x=0books_array.

  2. ruby - 是否可以将 IRB 提示配置为动态更改? - 2

    我想在IRB中浏览文件系统并让提示更改以反射(reflect)当前工作目录,但我不知道如何在每个命令后进行提示更新。最终,我想在日常工作中更多地使用IRB,让bash溜走。我在我的.irbrc中试过这个:require'fileutils'includeFileUtilsIRB.conf[:PROMPT][:CUSTOM]={:PROMPT_N=>"\e[1m:\e[m",:PROMPT_I=>"\e[1m#{pwd}>\e[m",:PROMPT_S=>"FOO",:PROMPT_C=>"\e[1m#{pwd}>\e[m",:RETURN=>""}IRB.conf[:PROMPT_MO

  3. ruby-on-rails - carrierwave:在序列化动态属性上安装 uploader - 2

    首先,我使用的是rails3.1.3和来自master的carrierwavegithub仓库的分支。我使用after_init钩子(Hook)来确定基于属性的字段页面模型实例并为这些字段定义属性访问器将值存储在序列化哈希中(希望它清楚我是什么谈论)。这是我正在做的事情的精简版:classPage省略mount_uploader命令让我可以访问我想要的属性。但是当我安装uploader时出现错误消息说“nil类的未定义新方法”我在源代码中读到有方法read_uploader和扩展模块中的write_uploader。我如何必须覆盖这些来制作mount_uploader命令使用我的“虚拟

  4. ruby - 在 Ruby 中动态生成多维数组 - 2

    我正在尝试动态构建一个多维数组。我想要的基本上是这样的(为简单起见写出来):b=0test=[[]]test[b]这给了我错误:NoMethodError:undefinedmethod`test=[[],[],[]]而且它工作正常,但在我的实际使用中,我不会事先知道需要多少个数组。有一个更好的方法吗?谢谢 最佳答案 不需要像您正在使用的索引变量。只需将每个数组附加到您的test数组:irb>test=[]=>[]irb>test[["a","b","c"]]irb>test[["a","b","c"],["d","e","f"]]

  5. ruby-on-rails - 使用 gmaps4rails 动态加载谷歌地图标记 - 2

    如何只加载map边界内的标记gmaps4rails?当然,在平移和/或缩放后加载新的。与此直接相关的是,如何获取map的当前边界和缩放级别? 最佳答案 我是这样做的,我只在用户完成平移或缩放后替换标记,如果您需要不同的行为,请使用不同的事件监听器:在你看来(index.html.erb):{"zoom"=>15,"auto_adjust"=>false,"detect_location"=>true,"center_on_user"=>true}},false,true)%>在View的底部添加:functiongmaps4rail

  6. ruby - 动态方法链? - 2

    如何在对象上调用方法名称的嵌套哈希?例如,给定以下哈希:hash={:a=>{:b=>{:c=>:d}}}我想创建一个方法,给定上面的散列,执行以下操作:object.send(:a).send(:b).send(:c).send(:d)我的想法是我需要从一个未知的关联中获取一个特定的属性(这个方法不知道,但程序员知道)。我希望能够指定一个方法链来以嵌套哈希的形式检索该属性。例如:hash={:manufacturer=>{:addresses=>{:first=>:postal_code}}}car.execute_method_hash(hash)=>90210

  7. ruby - 如何使用 method_missing 动态声明方法? - 2

    我有一个ruby​​程序,我想接受用户创建的方法,并使用该名称创建一个新方法。我试过这个:defmethod_missing(meth,*args,&block)name=meth.to_sclass我收到以下错误:`define_method':interningemptystring(ArgumentError)in'method_missing'有什么想法吗?谢谢。编辑:我以不同的方式让它工作,但我仍然很好奇如何以这种方式做到这一点。这是我的代码:defmethod_missing(meth,*args,&block)Adder.class_evaldodefine_method

  8. ruby - 动态扩展现有方法或覆盖 ruby​​ 中的发送方法 - 2

    假设我们有A、B、C类。Adefself.inherited(sub)#metaprogramminggoeshere#takeclassthathasjustinheritedclassA#andforfooclassesinjectprepare_foo()as#firstlineofmethodthenrunrestofthecodeenddefprepare_foo#=>prepare_foo()neededhere#somecodeendendBprepare_foo()neededhere#somecodeendend如您所见,我正在尝试将foo_prepare()调用注入

  9. ruby - 使用 jbuilder 创建具有动态哈希键的 JSON - 2

    这里我想输出带有动态组名的json而不是单词组@tickets.eachdo|group,v|json.group{json.array!vdo|ticket|json.partial!'tickets/ticket',ticket:ticketend}end@ticket是这样的散列{a:[....],b:[.....]}我想要这样的输出{a:[.....],b:[....]} 最佳答案 感谢@AntarrByrd,这个问题有类似的答案:JBuilderdynamickeysformodelattributes使用上面的逻辑我已经

  10. ruby - 在 Rakefile 中动态生成 Rake 测试任务(基于现有的测试文件) - 2

    我正在根据Rakefile中的现有测试文件动态生成测试任务。假设您有各种以模式命名的单元测试文件test_.rb.所以我正在做的是创建一个以“测试”命名空间内的文件名命名的任务。使用下面的代码,我可以用raketest:调用所有测试require'rake/testtask'task:default=>'test:all'namespace:testdodesc"Runalltests"Rake::TestTask.new(:all)do|t|t.test_files=FileList['test_*.rb']endFileList['test_*.rb'].eachdo|task|n

随机推荐