prometheus告警处理

simple11618 2023-10-27 原文

文章目录

一.告警简介

1.工作流程

prometheus收集监测的信息

prometheus.yml 文件中定义 rules 文件，rules 里包含告警信息

prometheus 把告警信息 push 给 altermanager，alertmanager 里定义收件人和发件人

altermanager 发送文件到邮箱或微信

2.告警生命周期

定期采集监控数据
定期扫描告警规则，发现告警发给 alertmanager，prometheus 页面能看到 alert ，状态为 pending
多次发送到 alertmanager，持续时长超过告警告警规则的 for 的 alert，prometheus 页面看到状态为 firing，准备发送
firing 状态的 alert 等待 group_interval 时间聚合发送
恢复正常后，警报状态重新变回 inactive

3.告警等级

Inactive: 什么都没发生
Pending：已触发阈值，但未满足告警持续时间
Firing：已触发阈值，并满足for定义的持续时间。告警发送给接受者

4.通知方式

webhook：web回调或者http服务的推送API接口
wechat：通过微信 API发送
sns：短信
Pushover ：通过Pushover API发送
email：电子邮件

二. AlertManager组件

1.特性

prometheus是组件化工具，prometheus server只负责产生告警，并不会处理告警。 AlertManager组件就是用来处理和消费告警

Alertmanager定义告警机制，通过Slack，Email，wechat等发送警报

1.1 分组

当系统停机时,可能会成百上千的报警同时生成,这个时候就需要将这些告警信息分组了

分组：是指当出现问题时，Altermanager会收到一个单一的通知

将同类型/同一种影响的短信合并为一条来发送

1.2. 抑制

抑制：是指当报警发出后，停止重复发送初始化警告引发其他错误的警告的机制

例如当警报被触发，通知整个性能不可达，可以配置Alertmanager忽略由该警报触发而产生的所有其他警报，这可以防止通知多个或多个问题不相关的其他警报。

1.3.沉默

沉默：是指在特定时间内不要发送告警信息，比如设置23点-08点不发送任何告警信息

2.AlertManager安装

2.1 下载安装

wget https://github.com/prometheus/alertmanager/releases/download/v0.24.0/alertmanager-0.24.0.linux-amd64.tar.gz

 tar xvf -C /usr/local/ alertmanager-0.24.0.linux-amd64.tar.gz
 
 cd /usr/local/
 
 ln -s alertmanager-0.24.0.linux-amd64 alertmanager

2.2 创建service脚本

vi /usr/lib/systemd/system/alertmanager.service

[Unit]
Description=alertmanager

[Service]
ExecStart=/usr/local/alertmanager/alertmanager --config.file=/usr/local/alertmanager/alertmanager.yml --storage.path=/usr/local/alertmanager/data --web.listen-address=:9093 --data.retention=120h
Restart=on-failure

[Install]
WantedBy=multi-user.target

2.3 检查配置文件

./amtool check-config alertmanager.yml


Checking 'alertmanager.yml'  SUCCESS
Found:
 - global config
 - route
 - 0 inhibit rules
 - 1 receivers
 - 0 templates

2.4 启动程序

systemctl daemon-reload

systemctl start alertmanager

systemctl enable alertmanager

3.自定义告警规则

Prometheus中的告警规则允许你基于PromQL表达式定义告警触发条件，Prometheus后端对这些触发规则进行周期性计算，当满足触发条件后则会触发告警通知

在告警规则文件中，我们可以将一组相关的规则设置定义在一个group下。在每一个group中我们可以定义多个告警规则(rule)

一条告警规则主要由以下几部分组成：

alert: 告警规则名称

expr：基于PromQL表达式定义满足告警触发的条件

for：

labels：自定义标签，允许用户指定要附加到告警上的一组附加标签

annotations：用于指定一组附加信息，比如用于描述告警详细信息的文字等。

annotations的内容在告警产生时会一同作为参数发送到Alertmanager。

summary描述告警的概要信息，description用于描述告警的详细信息。

同时Alertmanager的UI也会根据这两个标签值，显示告警信息

示例：

groups:
- name: queue-messages-warning
  rules:
  - alert: queue-messages-warning
    expr: sum(rabbitmq_queue_messages{job='rabbit-state-metrics'}) > 500
    labels:
      team: webhook-warning
    annotations:
      summary: High queue-messages usage detected
      description: "description"

4. 自定义通知模板

默认模板

https://github.com/prometheus/alertmanager/blob/main/template/default.tmpl

alertmanager.yml 中添加使用模板


global:
  resolve_timeout: 5m


templates:
  - './template/alertmanager-wechat.tmpl'

route:

  group_by: ['alertname','app']
  group_wait: 30s

  group_interval: 5m

  repeat_interval: 30s

  receiver: 'wechat'


receivers:

- name: 'wechat'

  wechat_configs:
    - corp_id: 'wwa28f62ad74db58ce'
      # 当前收件人是否接受告警恢复的通知
      send_resolved: true
      message: '{{ template "wechat.default.message" . }}'
      #发送给所有人
      to_user: '@all' 
      #你的应用id
      agent_id: 1000003
      #你的应用秘钥
      api_secret: 'WtXlfif6TJjmYipx7Cg6W_tx9tVFrJm_BgDHEWEGL54'
      send_resolved: true

添加模板规则

这里定义的时间为go 语言的诞生时间！！！切记不能乱填

StartsAt.Add 28800e9).Format “2006-01-02 15:04:05”

vi ./template/alertmanager-wechat.tmpl

{{ define "wechat.default.message" }}
{{- if gt (len .Alerts.Firing) 0 -}}
{{- range $index, $alert := .Alerts -}}

=========  监控告警 =========
告警程序:     Alertmanager
告警类型:    {{ $alert.Labels.alertname }}
告警级别:    {{ $alert.Labels.severity }} 级
告警状态:    {{ .Status }}
故障主机:    {{ $alert.Labels.instance }} {{ $alert.Labels.device }}
告警主题:    {{ .Annotations.summary }}
告警详情:    {{ $alert.Annotations.message }}{{ $alert.Annotations.description}}
主机标签:    {{ range .Labels.SortedPairs  }}  [{{ .Name }}: {{ .Value  | html }} ] {{- end }} 
故障时间:    {{ (.StartsAt.Add 28800e9).Format "2006-01-02 15:04:05" }}


{{- end }}
{{- end }}

{{- if gt (len .Alerts.Resolved) 0 -}}
{{- range $index, $alert := .Alerts -}}

========= 告警恢复 =========
告警程序:     Alertmanager
告警主题:    {{ $alert.Annotations.summary }}
告警主机:    {{ .Labels.instance }}
告警类型:    {{ .Labels.alertname }}
告警级别:    {{ $alert.Labels.severity }} 级
告警状态:    {{   .Status }}
告警详情:    {{ $alert.Annotations.message }}{{ $alert.Annotations.description}}
故障时间:    {{ (.StartsAt.Add 28800e9).Format "2006-01-02 15:04:05" }}
恢复时间:    {{ (.EndsAt.Add 28800e9).Format "2006-01-02 15:04:05" }}

{{- end }}
{{- end }}
{{- end }}

三.配置告警信息

1. Prometheus配置告警规则

1. 1 配置alertmanager地址

要实现Prometheus向Alertmanager中发送信息，只需要配置alertmanager连接地址即可

vi prometheus.yml

# Alertmanager 配置

alerting:
  alertmanagers:
  - static_configs:
  	# altermanager连接地址
    - targets: ['10.10.10.100:9093']

1.2 添加告警规则

添加 rule_files 配置

在实际环境中，告警规则肯定有很多，比如对服务器异常进行告警，就有宕机、CPU使用率超过100%、内存使用率超过80%、硬盘使用率超过80%等等

最好创建一个文件夹，针对每个监控对象，创建一个配置文件。

告警规则配置在独立的文件中，文件格式为yml，并在prometheus.yml文件的rule_files模块中进行引用，prometheus启动时，会在rule_files定义的文件或目录下查找规则配置文件并加载

vi prometheus.yml

# 服务器加载规则文件的路径

rule_files:
 - "/etc/prometheus/sd_config/alert_rules/*.yml"

创建告警规则文件

进入 rule_files配置的文件路径下创建

vi /etc/prometheus/sd_config/alert_rules/alert_memory.yml

# 相关的规则设置定义在一个group下。在每一个group中我们可以定义多个告警规则(rule)
groups:
# name：组名。报警规则组名称
- name: alters
  # rules：定义规则
  rules:
  # alert：告警规则的名称
  - alert: NodeMemoryUsage 
  
    # expr：基于PromQL表达式告警触发条件，用于计算是否有时间序列满足该条件。
    expr: 100 - (node_memory_MemFree_bytes+node_memory_Cached_bytes+node_memory_Buffers_bytes) / node_memory_MemTotal_bytes * 100 > 20
    
    # for：评估等待时间，可选参数。用于表示只有当触发条件持续一段时间后才发送告警。在等待期间新产生告警的状态为pending。
    for: 1m
    
    # labels：自定义标签，允许用户指定要附加到告警上的一组附加标签。
    labels:
      # severity: 指定告警级别。有三种等级，分别为warning、critical和emergency。严重等级依次递增。
      severity: emergency

    # annotations: 附加信息，比如用于描述告警详细信息的文字等
    # annotations的内容在告警产生时会一同作为参数发送到Alertmanager。
    annotations:
      # summary描述告警的概要信息
      # description用于描述告警的详细信息。
      summary: "内存使用过高"
      description: "{{ $labels.instance }} 内存使用大于 80% (当前值: {{ $value }})"

2.Alertmanager配置告警机制

wechat 告警通知

vi alertmanager.yml

# 全局配置,全局配置，包括报警解决后的超时时间、SMTP 相关配置、各种渠道通知的 API 地址等等。
global:
  # 告警超时时间
  resolve_timeout: 5m
# 路由配置,设置报警的分发策略，它是一个树状结构，按照深度优先从左向右的顺序进行匹配。
route:
  # 接受者名称，对应下面receivers中的name
  receiver: 'wechat'

  # 用于将传入警报分组在一起的标签。
  # 基于告警中包含的标签，如果满足group_by中定义标签名称，那么这些告警将会合并为一个通知发送给接收器。
  group_by: ['alertname']
  # 发送通知的初始等待时间
  group_wait: 30s

  # 上下两组发送告警的间隔时间。
  group_interval: 5m
  # 如果已发送通知，则在再次发送通知之前要等待多长时间，通常约3m或更长时间
  repeat_interval: 30s


# 配置告警消息接受者信息
# 例如常用的 email、wechat、slack、webhook 等消息通知方式
receivers:
# 接受者名称
- name: 'wechat'
  # webhook URL
  wechat_configs:
      #企业ID (我的企业-->CorpId[在底部])
    - corp_id: 'wwa28f62ad74db58ce'
      #发送给所有人
      to_user: '@all' 
      #应用id (企业微信-->自定应用-->AgentId)
      agent_id: 1000003
      #应用秘钥 (企业微信-->自定应用--)
      api_secret: 'WtXlfif6TJjmYipx7Cg6W_tx9tVFrJm_BgDHEWEGL54'
      
      # 当前收件人是否接受告警恢复的通知
      send_resolved: true

prometheus 告警 span class token 云原生

有关prometheus告警处理的更多相关文章

ruby - 如何指定 Rack 处理程序 - 2
Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时，rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack
Ruby-vips 图像处理库。有什么好的使用示例吗？ - 2
我对图像处理完全陌生。我对JPEG内部是什么以及它是如何工作一无所知。我想知道，是否可以在某处找到执行以下简单操作的ruby代码:打开jpeg文件。遍历每个像素并将其颜色设置为fx绿色。将结果写入另一个文件。我对如何使用ruby-vips库实现这一点特别感兴趣https://github.com/ender672/ruby-vips我的目标-学习如何使用ruby-vips执行基本的图像处理操作(Gamma校正、亮度、色调……)任何指向比“helloworld”更复杂的工作示例的链接——比如ruby-vips的github页面上的链接，我们将不胜感激!如果有ruby-
ruby - Faye WebSocket，关闭处理程序被触发后重新连接到套接字 - 2
我有一个super简单的脚本，它几乎包含了FayeWebSocketGitHub页面上用于处理关闭连接的内容:ws=Faye::WebSocket::Client.new(url,nil,:headers=>headers)ws.on:opendo|event|p[:open]#sendpingcommand#sendtestcommand#ws.send({command:'test'}.to_json)endws.on:messagedo|event|#hereistheentrypointfordatacomingfromtheserver.pJSON.parse(event.d
ruby - 如何使用 Ruby HTTP::Net 处理 404 错误？ - 2
我正在尝试解析网页，但有时会收到404错误。这是我用来获取网页的代码:result=Net::HTTP::getURI.parse(URI.escape(url))如何测试result是否为404错误代码？最佳答案像这样重写你的代码:uri=URI.parse(url)result=Net::HTTP.start(uri.host,uri.port){|http|http.get(uri.path)}putsresult.codeputsresult.body这将打印状态码和正文。
ruby-on-rails - 使用 Ruby 正确处理 Stripe 错误和异常以实现一次性收费 - 2
我查看了Stripedocumentationonerrors，但我仍然无法正确处理/重定向这些错误。基本上无论发生什么，我都希望他们返回到edit操作(通过edit_profile_path)并向他们显示一条消息(无论成功与否)。我在edit操作上有一个表单，它可以POST到update操作。使用有效的信用卡可以正常工作(费用在Stripe仪表板中)。我正在使用Stripe.js。classExtrasController5000,#amountincents:currency=>"usd",:card=>token,:description=>current_user.email)
ruby-on-rails - Rails 处理 .Erb 与 Nils - 2
当profile为nil时，总是让我感到悲伤...我该怎么办？最佳答案在View中使用变量之前，始终检查变量是否为nil。我确信这个问题有更优雅的解决方案，但这应该能让您入门。关于ruby-on-rails-Rails处理.Erb与Nils，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/2709605/
ruby-on-rails - 如何在多个环境中处理 OmniAuth 回调？ - 2
我有一个应用程序专门使用Facebook作为身份验证提供程序，并正确设置了生产模式的回调。为了让它工作，您需要为您的Facebook应用程序提供一个站点URL和一个用于回调的站点域，在我的例子中是http://appname.heroku.com和appname。heroku.com分别。问题是我的Controller设置为只允许经过身份验证的session，所以我无法在开发模式下查看我的应用程序，因为Facebook应用程序的域显然没有设置为本地主机。如何在不更改Facebook设置的情况下解决这个问题？最佳答案创建另一个域l
python - 请在 Perl 或 Ruby 中引入多处理库 - 2
在python中，我们可以使用多处理模块。如果Perl和Ruby中有类似的库，你会教它吗？如果您能附上一个简短的示例，我将不胜感激。最佳答案 ruby:WorkingwithmultipleprocessesinRubyConcurrencyisaMythinRubyPerl:HarnessingthepowerofmulticoreWhyPerlIsaGreatLanguageforConcurrentProgramming此外，Perl的线程是native操作系统线程，因此您可以使用它们来利用多核。
ruby - 现代计算机的功能是否不足以处理字符串而无需使用符号(在 Ruby 中) - 2
我读过的关于Ruby符号的每一篇文章都在谈论符号相对于字符串的效率。但是，这不是1970年代。我的电脑可以处理一些额外的垃圾收集。我错了吗？我拥有最新最好的奔腾双核处理器和4GBRAM。我认为这应该足以处理一些字符串。最佳答案您的计算机可能能够处理“一点点额外的垃圾收集”，但是当“一点点”发生在运行数百万次的内部循环中时呢？如果它在内存有限的嵌入式系统上运行呢？有很多地方你可以随意使用字符串，但在某些地方你不能。这完全取决于上下文。关于ruby-现代计算机的功能是否不足以处理字符串
ruby-on-rails - Rspec - Controller 测试错误 - Paperclip::AdapterRegistry::NoHandlerError: 找不到 "#<File:0x531beb0>"的处理程序 - 2
我如下询问了我的Rspec测试。Rspec-RuntimeError:Calledidfornil,whichwouldmistakenlybe4在相同的代码上(“items_controller.rb”的Rspec测试)，我试图对“PUTupdate”进行测试。但是我收到错误消息“Paperclip::AdapterRegistry::NoHandlerError:找不到“#”的处理程序。我的Rspec测试如下。老实说，我猜这次失败的原因是“let(:valid_attributes)”上的“photo”=>File.new(Rails.root+'app/assets/images

prometheus告警处理

文章目录

一.告警简介

1.工作流程

2.告警生命周期

3.告警等级

4.通知方式

二. AlertManager组件

1.特性

1.1 分组

1.2. 抑制

1.3.沉默

2.AlertManager安装

2.1 下载安装

2.2 创建service脚本

2.3 检查配置文件

2.4 启动程序

3.自定义告警规则

4. 自定义通知模板

三.配置告警信息

1. Prometheus配置告警规则

1. 1 配置alertmanager地址

1.2 添加告警规则

2.Alertmanager配置告警机制

wechat 告警通知

有关prometheus告警处理的更多相关文章

随机推荐