草庐IT

Prometheus

全部标签

【云原生】Prometheus 自定义告警规则

一、概述通过创建Prometheus监控告警规则,您可以制定针对特定Prometheus实例的告警规则。当告警规则设置的条件满足后,系统会产生对应的告警事件。如果想要收到通知,需要进一步配置对应的通知策略以生成告警并且以短信、邮件、电话、钉群机器人、企业微信机器人或者Webhook等方式发送通知。从Prometheusserver端接收到alerts后,会基于PromQL的告警规则分析数据,如果满足PromQL定义的规则,则会产生一条告警,并发送告警信息到Alertmanager,Alertmanager则是根据配置处理告警信息并发送。所以Prometheus的告警配置依赖于PromQL与Al

kube-state-metrics 在大规模集群下的优化

当我们使用Prometheus来监控Kubernetes集群的时候,kube-state-metrics(KSM) 基本属于一个必备组件,它通过WatchAPIServer来生成资源对象的状态指标,它并不会关注单个Kubernetes组件的健康状况,而是关注各种资源对象的健康状态,比如Deployment、Node、Pod、Ingress、Job、Service等等,每种资源对象中包含了需要指标,我们可以在官方文档https://github.com/kubernetes/kube-state-metrics/tree/main/docs处进行查看。要安装KSM也非常简单,代码仓库中就包含了对

kube-state-metrics 在大规模集群下的优化

当我们使用Prometheus来监控Kubernetes集群的时候,kube-state-metrics(KSM) 基本属于一个必备组件,它通过WatchAPIServer来生成资源对象的状态指标,它并不会关注单个Kubernetes组件的健康状况,而是关注各种资源对象的健康状态,比如Deployment、Node、Pod、Ingress、Job、Service等等,每种资源对象中包含了需要指标,我们可以在官方文档https://github.com/kubernetes/kube-state-metrics/tree/main/docs处进行查看。要安装KSM也非常简单,代码仓库中就包含了对

Prometheus+Grafana监控安装及配置JVM实现企业微信告警

背景本人Java开发工程师一枚,主攻后端,需要搭建一套Prometheus+Grafana的监控系统,采用企业微信告警通知。在网上各种查阅资料的同时,发现很多资料都大致相通且不完整,踩坑无数,经过多日钻研后,最终完成了整个搭建任务,特此记录下整个安装操作过程,希望能帮助各位。同时也请各位大神指导并提出意见,在此只能傻瓜式的记录下操作过程,如果有幸有哪位运维大神看到,还请指正不足之处,感激不尽[抱拳]一、Prometheus下载安装Promethus官网下载地址:https://prometheus.io/download/image.pngXshell连接服务器依次执行以下命令:进入local

Prometheus+Grafana监控安装及配置JVM实现企业微信告警

背景本人Java开发工程师一枚,主攻后端,需要搭建一套Prometheus+Grafana的监控系统,采用企业微信告警通知。在网上各种查阅资料的同时,发现很多资料都大致相通且不完整,踩坑无数,经过多日钻研后,最终完成了整个搭建任务,特此记录下整个安装操作过程,希望能帮助各位。同时也请各位大神指导并提出意见,在此只能傻瓜式的记录下操作过程,如果有幸有哪位运维大神看到,还请指正不足之处,感激不尽[抱拳]一、Prometheus下载安装Promethus官网下载地址:https://prometheus.io/download/image.pngXshell连接服务器依次执行以下命令:进入local

自定义prometheus exporter实现监控阿里云RDS

prometheus-icon.png背景1、Prometheus官网提供的mysqlexporter对于mysql实例只能一个进程监控一个实例,数据库实例很多的情况,不方便管理2、内部有定制化监控需求,RDS默认无法实现,比如对数据库增长的监控3、默认Prometheus官网提供的mysqlexporter采集mysql几乎所有的指标,但是实际用到的却不多。浪费存储空间思路先了解对于数据库的监控需求1、一个exporter可以采集所有RDS实例数据2、RDS实例采集指标不用全部采集,按需即可3、定制化需求数据库磁盘使用率,默认mysql的status/variables中没有该指标统计数据库

自定义prometheus exporter实现监控阿里云RDS

prometheus-icon.png背景1、Prometheus官网提供的mysqlexporter对于mysql实例只能一个进程监控一个实例,数据库实例很多的情况,不方便管理2、内部有定制化监控需求,RDS默认无法实现,比如对数据库增长的监控3、默认Prometheus官网提供的mysqlexporter采集mysql几乎所有的指标,但是实际用到的却不多。浪费存储空间思路先了解对于数据库的监控需求1、一个exporter可以采集所有RDS实例数据2、RDS实例采集指标不用全部采集,按需即可3、定制化需求数据库磁盘使用率,默认mysql的status/variables中没有该指标统计数据库

Prometheus + Alertmanager 实现 钉钉监控告警

背景目前的告警通知采用grafana来通知dingding群,这只是grafana的一个功能,所以在灵活性上还是有很多缺陷的,不如专门做告警通知的alertmanager方便grafana告警优点:可以发送趋势图,并且配置上来讲比较方便,直接在监控图里配置即可,比较简单缺点:不能创建一个告警模板应用到一批实例上,意味着我们要每个实例都去配置一下告警,非常麻烦。不能分组,比如:一个集群的多台机器,都挂掉了,那我们可能一下分别收到5,6个告警,这样大量冗余消息,时间长了人可能会有疏忽。告警恢复的消息,不能显示恢复的是哪个机器,只有一个ok和告警名,多个告警下来,具体是哪个恢复了我们也不知道。ale

Prometheus + Alertmanager 实现 钉钉监控告警

背景目前的告警通知采用grafana来通知dingding群,这只是grafana的一个功能,所以在灵活性上还是有很多缺陷的,不如专门做告警通知的alertmanager方便grafana告警优点:可以发送趋势图,并且配置上来讲比较方便,直接在监控图里配置即可,比较简单缺点:不能创建一个告警模板应用到一批实例上,意味着我们要每个实例都去配置一下告警,非常麻烦。不能分组,比如:一个集群的多台机器,都挂掉了,那我们可能一下分别收到5,6个告警,这样大量冗余消息,时间长了人可能会有疏忽。告警恢复的消息,不能显示恢复的是哪个机器,只有一个ok和告警名,多个告警下来,具体是哪个恢复了我们也不知道。ale

prometheus监控、告警与存储

一、kube-state-metrics1.1kube-state-metrics介绍github地址:https://github.com/kubernetes/kube-state-metrics镜像地址:https://hub.docker.com/r/bitnami/kube-state-metrics博客介绍:https://xie.infoq.cn/article/9e1fff6306649e65480a96bb1kube-state-metrics是通过监听APIServer生成有关资源对象的状态指标,比如Deployment、Node、Pod,需要注意的是kube-state-