背景边缘集群(基于树莓派+K3S)需要实现基本的告警功能。边缘集群限制CPU/内存/存储资源紧张,无法支撑至少需要2GB以上内存和大量存储的基于Prometheus的完整监控体系方案(即使是基于PrometheusAgent,也无法支撑)(需要避免额外的存储和计算资源消耗)网络条件,无法支撑监控体系,因为监控体系一般都需要每1min定时(或每时每刻)传输数据,且数据量不小;存在5G收费网络的情况,且访问的目的端地址需要开通权限,且按照流量收费,且因为5G网络条件,网络传输能力受限,且不稳定(可能会在一段时间内离线);关键需求总结下来,关键需求如下:实现对边缘集群异常的及时告警,需要知道边缘集群
背景边缘集群(基于树莓派+K3S)需要实现基本的告警功能。边缘集群限制CPU/内存/存储资源紧张,无法支撑至少需要2GB以上内存和大量存储的基于Prometheus的完整监控体系方案(即使是基于PrometheusAgent,也无法支撑)(需要避免额外的存储和计算资源消耗)网络条件,无法支撑监控体系,因为监控体系一般都需要每1min定时(或每时每刻)传输数据,且数据量不小;存在5G收费网络的情况,且访问的目的端地址需要开通权限,且按照流量收费,且因为5G网络条件,网络传输能力受限,且不稳定(可能会在一段时间内离线);关键需求总结下来,关键需求如下:实现对边缘集群异常的及时告警,需要知道边缘集群
通俗易懂的一篇文章,主要介绍了Prometheus什么时候告警,什么时候不会告警。同时介绍了Prometheus告警原理。 警报是监控系统中必不可少的一块,当然了,也是最难搞的一块.我们乍一想,警报似乎很简单一件事: 假如发生了异常情况,发送或邮件/消息通知给某人或某频道。 一把梭搞起来之后,就不免有一些小麻烦: 这个啊…一天中总有那么几次波动,也难修难查了,算了算了不看了; 警报太多了,实在看不过来,屏蔽/归档/放生吧… 有毒吧,这个阈值也太低了; 卧槽,这些警报啥意思啊,发给我干嘛啊? 卧槽卧槽卧槽,怎么一下子几十百来条警报,哦…原来网络出问题了全崩了。 玩笑归玩笑,但至少我们能看出,警报
通俗易懂的一篇文章,主要介绍了Prometheus什么时候告警,什么时候不会告警。同时介绍了Prometheus告警原理。 警报是监控系统中必不可少的一块,当然了,也是最难搞的一块.我们乍一想,警报似乎很简单一件事: 假如发生了异常情况,发送或邮件/消息通知给某人或某频道。 一把梭搞起来之后,就不免有一些小麻烦: 这个啊…一天中总有那么几次波动,也难修难查了,算了算了不看了; 警报太多了,实在看不过来,屏蔽/归档/放生吧… 有毒吧,这个阈值也太低了; 卧槽,这些警报啥意思啊,发给我干嘛啊? 卧槽卧槽卧槽,怎么一下子几十百来条警报,哦…原来网络出问题了全崩了。 玩笑归玩笑,但至少我们能看出,警报
昨天一个朋友在微信群中问我数据库的指标告警的故障收敛怎么做才能真正落地。说实在的,虽然现在很多做智能化运维的企业都号称能实现很好的故障告警收敛,不过都是场景受限的。大多数情况下是在一套系统中,针对系统中多个IT组件的故障根据时间、先后顺序、以及波动曲线以及相关性要素等,通过算法进行收敛。这种收敛在有些场景下是有效的,不过也存在一定的误判和遗漏,不过总体来说还是可用的,是具有一定的实战作用的。网友的问题并不是在一个系统中如何归并各个IT组件对于同一个问题的告警,而是针对某一个具体的运维对象,他特指的是数据库。如果把这个问题放到一个具体的运维对象上去看,比如DBA面对的数据库系统,那么这个问题就完
昨天一个朋友在微信群中问我数据库的指标告警的故障收敛怎么做才能真正落地。说实在的,虽然现在很多做智能化运维的企业都号称能实现很好的故障告警收敛,不过都是场景受限的。大多数情况下是在一套系统中,针对系统中多个IT组件的故障根据时间、先后顺序、以及波动曲线以及相关性要素等,通过算法进行收敛。这种收敛在有些场景下是有效的,不过也存在一定的误判和遗漏,不过总体来说还是可用的,是具有一定的实战作用的。网友的问题并不是在一个系统中如何归并各个IT组件对于同一个问题的告警,而是针对某一个具体的运维对象,他特指的是数据库。如果把这个问题放到一个具体的运维对象上去看,比如DBA面对的数据库系统,那么这个问题就完
最近组里又来了一个需求:当告警发生时,将告警信息通过企业微信发送给开发的相关负责人,方便尽快排除故障。实际使用Alertmanager来完成这项工作,下面介绍具体的实现方法。详细配置告警通道配置监控最重要的是在故障发生时,能将告警信息发送出来,让正确的人第一时间获悉故障的详情,只有这样才能尽快排除故障。企业微信很多公司都有使用,而且Alertmanager支持将企业微信作为告警通道。按照企业微信的官方文档来配置告警通道,如果觉得麻烦,可以在浏览器上搜索“alertmanager企业微信”关键字,就有很多配置例子展示。我们需要得到下面五个键值对:wechat_api_url:'https://q
最近组里又来了一个需求:当告警发生时,将告警信息通过企业微信发送给开发的相关负责人,方便尽快排除故障。实际使用Alertmanager来完成这项工作,下面介绍具体的实现方法。详细配置告警通道配置监控最重要的是在故障发生时,能将告警信息发送出来,让正确的人第一时间获悉故障的详情,只有这样才能尽快排除故障。企业微信很多公司都有使用,而且Alertmanager支持将企业微信作为告警通道。按照企业微信的官方文档来配置告警通道,如果觉得麻烦,可以在浏览器上搜索“alertmanager企业微信”关键字,就有很多配置例子展示。我们需要得到下面五个键值对:wechat_api_url:'https://q
Zabbix作为一款传统的监控软件一直保持稳定的迭代,到目前为止稳定版已经更新到5.4了。Zabbix内置非常多现成的监控项,从操作系统到常用的软件Redis、MySQL等,几乎都可以找到对应的监控项,差不多可以做到零配置就实现操作系统三大件:CPU、硬盘、内存的监控。此外Linux和Windows,Zabbix都支持。Zabbix内置丰富的告警媒介,但很遗憾没有内置企业微信告警。企业微信在很多公司都有使用,得益于它强大的消息推送API,我们可以自己实现使用企业微信作为告警媒介,本文就从零开始介绍如何使用企业微信发送Zabbix告警。一、企业微信配置相关浏览器登录企业微信管理后台,在“应用管理
Zabbix作为一款传统的监控软件一直保持稳定的迭代,到目前为止稳定版已经更新到5.4了。Zabbix内置非常多现成的监控项,从操作系统到常用的软件Redis、MySQL等,几乎都可以找到对应的监控项,差不多可以做到零配置就实现操作系统三大件:CPU、硬盘、内存的监控。此外Linux和Windows,Zabbix都支持。Zabbix内置丰富的告警媒介,但很遗憾没有内置企业微信告警。企业微信在很多公司都有使用,得益于它强大的消息推送API,我们可以自己实现使用企业微信作为告警媒介,本文就从零开始介绍如何使用企业微信发送Zabbix告警。一、企业微信配置相关浏览器登录企业微信管理后台,在“应用管理