文章目录
prometheus收集监测的信息
prometheus.yml 文件中定义 rules 文件,rules 里包含告警信息
prometheus 把告警信息 push 给 altermanager,alertmanager 里定义收件人和发件人
altermanager 发送文件到邮箱或微信
- 定期采集监控数据
- 定期扫描告警规则,发现告警发给 alertmanager,prometheus 页面能看到 alert ,状态为 pending
- 多次发送到 alertmanager,持续时长超过告警告警规则的 for 的 alert,prometheus 页面看到状态为 firing,准备发送
- firing 状态的 alert 等待 group_interval 时间聚合发送
- 恢复正常后,警报状态重新变回 inactive
- Inactive: 什么都没发生
- Pending:已触发阈值,但未满足告警持续时间
- Firing:已触发阈值,并满足for定义的持续时间。告警发送给接受者
- webhook:web回调或者http服务的推送API接口
- wechat:通过微信 API发送
- sns:短信
- Pushover :通过Pushover API发送
- email:电子邮件
prometheus是组件化工具,prometheus server只负责产生告警,并不会处理告警。 AlertManager组件就是用来处理和消费告警
Alertmanager定义告警机制,通过Slack,Email,wechat等发送警报
当系统停机时,可能会成百上千的报警同时生成,这个时候就需要将这些告警信息分组了
分组:是指当出现问题时,Altermanager会收到一个单一的通知
将同类型/同一种影响的短信合并为一条来发送
抑制:是指当报警发出后,停止重复发送初始化警告引发其他错误的警告的机制
例如当警报被触发,通知整个性能不可达,可以配置Alertmanager忽略由该警报触发而产生的所有其他警报,这可以防止通知多个或多个问题不相关的其他警报。
沉默:是指在特定时间内不要发送告警信息,比如设置23点-08点不发送任何告警信息
wget https://github.com/prometheus/alertmanager/releases/download/v0.24.0/alertmanager-0.24.0.linux-amd64.tar.gz
tar xvf -C /usr/local/ alertmanager-0.24.0.linux-amd64.tar.gz
cd /usr/local/
ln -s alertmanager-0.24.0.linux-amd64 alertmanager
vi /usr/lib/systemd/system/alertmanager.service
[Unit]
Description=alertmanager
[Service]
ExecStart=/usr/local/alertmanager/alertmanager --config.file=/usr/local/alertmanager/alertmanager.yml --storage.path=/usr/local/alertmanager/data --web.listen-address=:9093 --data.retention=120h
Restart=on-failure
[Install]
WantedBy=multi-user.target
./amtool check-config alertmanager.yml
Checking 'alertmanager.yml' SUCCESS
Found:
- global config
- route
- 0 inhibit rules
- 1 receivers
- 0 templates
systemctl daemon-reload
systemctl start alertmanager
systemctl enable alertmanager
Prometheus中的告警规则允许你基于PromQL表达式定义告警触发条件,Prometheus后端对这些触发规则进行周期性计算,当满足触发条件后则会触发告警通知
在告警规则文件中,我们可以将一组相关的规则设置定义在一个group下。在每一个group中我们可以定义多个告警规则(rule)
一条告警规则主要由以下几部分组成:
alert: 告警规则名称
expr:基于PromQL表达式定义满足告警触发的条件
for:
labels:自定义标签,允许用户指定要附加到告警上的一组附加标签
annotations:用于指定一组附加信息,比如用于描述告警详细信息的文字等。
annotations的内容在告警产生时会一同作为参数发送到Alertmanager。
summary描述告警的概要信息,description用于描述告警的详细信息。
同时Alertmanager的UI也会根据这两个标签值,显示告警信息
示例:
groups:
- name: queue-messages-warning
rules:
- alert: queue-messages-warning
expr: sum(rabbitmq_queue_messages{job='rabbit-state-metrics'}) > 500
labels:
team: webhook-warning
annotations:
summary: High queue-messages usage detected
description: "description"
默认模板
https://github.com/prometheus/alertmanager/blob/main/template/default.tmpl
alertmanager.yml 中添加使用模板
global:
resolve_timeout: 5m
templates:
- './template/alertmanager-wechat.tmpl'
route:
group_by: ['alertname','app']
group_wait: 30s
group_interval: 5m
repeat_interval: 30s
receiver: 'wechat'
receivers:
- name: 'wechat'
wechat_configs:
- corp_id: 'wwa28f62ad74db58ce'
# 当前收件人是否接受告警恢复的通知
send_resolved: true
message: '{{ template "wechat.default.message" . }}'
#发送给所有人
to_user: '@all'
#你的应用id
agent_id: 1000003
#你的应用秘钥
api_secret: 'WtXlfif6TJjmYipx7Cg6W_tx9tVFrJm_BgDHEWEGL54'
send_resolved: true
添加模板规则
这里定义的时间为go 语言的诞生时间!!!切记不能乱填
StartsAt.Add 28800e9).Format “2006-01-02 15:04:05”
vi ./template/alertmanager-wechat.tmpl
{{ define "wechat.default.message" }}
{{- if gt (len .Alerts.Firing) 0 -}}
{{- range $index, $alert := .Alerts -}}
========= 监控告警 =========
告警程序: Alertmanager
告警类型: {{ $alert.Labels.alertname }}
告警级别: {{ $alert.Labels.severity }} 级
告警状态: {{ .Status }}
故障主机: {{ $alert.Labels.instance }} {{ $alert.Labels.device }}
告警主题: {{ .Annotations.summary }}
告警详情: {{ $alert.Annotations.message }}{{ $alert.Annotations.description}}
主机标签: {{ range .Labels.SortedPairs }} [{{ .Name }}: {{ .Value | html }} ] {{- end }}
故障时间: {{ (.StartsAt.Add 28800e9).Format "2006-01-02 15:04:05" }}
{{- end }}
{{- end }}
{{- if gt (len .Alerts.Resolved) 0 -}}
{{- range $index, $alert := .Alerts -}}
========= 告警恢复 =========
告警程序: Alertmanager
告警主题: {{ $alert.Annotations.summary }}
告警主机: {{ .Labels.instance }}
告警类型: {{ .Labels.alertname }}
告警级别: {{ $alert.Labels.severity }} 级
告警状态: {{ .Status }}
告警详情: {{ $alert.Annotations.message }}{{ $alert.Annotations.description}}
故障时间: {{ (.StartsAt.Add 28800e9).Format "2006-01-02 15:04:05" }}
恢复时间: {{ (.EndsAt.Add 28800e9).Format "2006-01-02 15:04:05" }}
{{- end }}
{{- end }}
{{- end }}
要实现Prometheus向Alertmanager中发送信息,只需要配置alertmanager连接地址即可
vi prometheus.yml
# Alertmanager 配置
alerting:
alertmanagers:
- static_configs:
# altermanager连接地址
- targets: ['10.10.10.100:9093']
在实际环境中,告警规则肯定有很多,比如对服务器异常进行告警,就有宕机、CPU使用率超过100%、内存使用率超过80%、硬盘使用率超过80%等等
最好创建一个文件夹,针对每个监控对象,创建一个配置文件。
告警规则配置在独立的文件中,文件格式为yml,并在prometheus.yml文件的rule_files模块中进行引用,prometheus启动时,会在rule_files定义的文件或目录下查找规则配置文件并加载
vi prometheus.yml
# 服务器加载规则文件的路径
rule_files:
- "/etc/prometheus/sd_config/alert_rules/*.yml"
进入 rule_files配置的文件路径下创建
vi /etc/prometheus/sd_config/alert_rules/alert_memory.yml
# 相关的规则设置定义在一个group下。在每一个group中我们可以定义多个告警规则(rule)
groups:
# name:组名。报警规则组名称
- name: alters
# rules:定义规则
rules:
# alert:告警规则的名称
- alert: NodeMemoryUsage
# expr:基于PromQL表达式告警触发条件,用于计算是否有时间序列满足该条件。
expr: 100 - (node_memory_MemFree_bytes+node_memory_Cached_bytes+node_memory_Buffers_bytes) / node_memory_MemTotal_bytes * 100 > 20
# for:评估等待时间,可选参数。用于表示只有当触发条件持续一段时间后才发送告警。在等待期间新产生告警的状态为pending。
for: 1m
# labels:自定义标签,允许用户指定要附加到告警上的一组附加标签。
labels:
# severity: 指定告警级别。有三种等级,分别为warning、critical和emergency。严重等级依次递增。
severity: emergency
# annotations: 附加信息,比如用于描述告警详细信息的文字等
# annotations的内容在告警产生时会一同作为参数发送到Alertmanager。
annotations:
# summary描述告警的概要信息
# description用于描述告警的详细信息。
summary: "内存使用过高"
description: "{{ $labels.instance }} 内存使用大于 80% (当前值: {{ $value }})"
vi alertmanager.yml
# 全局配置,全局配置,包括报警解决后的超时时间、SMTP 相关配置、各种渠道通知的 API 地址等等。
global:
# 告警超时时间
resolve_timeout: 5m
# 路由配置,设置报警的分发策略,它是一个树状结构,按照深度优先从左向右的顺序进行匹配。
route:
# 接受者名称,对应下面receivers中的name
receiver: 'wechat'
# 用于将传入警报分组在一起的标签。
# 基于告警中包含的标签,如果满足group_by中定义标签名称,那么这些告警将会合并为一个通知发送给接收器。
group_by: ['alertname']
# 发送通知的初始等待时间
group_wait: 30s
# 上下两组发送告警的间隔时间。
group_interval: 5m
# 如果已发送通知,则在再次发送通知之前要等待多长时间,通常约3m或更长时间
repeat_interval: 30s
# 配置告警消息接受者信息
# 例如常用的 email、wechat、slack、webhook 等消息通知方式
receivers:
# 接受者名称
- name: 'wechat'
# webhook URL
wechat_configs:
#企业ID (我的企业-->CorpId[在底部])
- corp_id: 'wwa28f62ad74db58ce'
#发送给所有人
to_user: '@all'
#应用id (企业微信-->自定应用-->AgentId)
agent_id: 1000003
#应用秘钥 (企业微信-->自定应用--)
api_secret: 'WtXlfif6TJjmYipx7Cg6W_tx9tVFrJm_BgDHEWEGL54'
# 当前收件人是否接受告警恢复的通知
send_resolved: true
Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时,rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack
我对图像处理完全陌生。我对JPEG内部是什么以及它是如何工作一无所知。我想知道,是否可以在某处找到执行以下简单操作的ruby代码:打开jpeg文件。遍历每个像素并将其颜色设置为fx绿色。将结果写入另一个文件。我对如何使用ruby-vips库实现这一点特别感兴趣https://github.com/ender672/ruby-vips我的目标-学习如何使用ruby-vips执行基本的图像处理操作(Gamma校正、亮度、色调……)任何指向比“helloworld”更复杂的工作示例的链接——比如ruby-vips的github页面上的链接,我们将不胜感激!如果有ruby-
我有一个super简单的脚本,它几乎包含了FayeWebSocketGitHub页面上用于处理关闭连接的内容:ws=Faye::WebSocket::Client.new(url,nil,:headers=>headers)ws.on:opendo|event|p[:open]#sendpingcommand#sendtestcommand#ws.send({command:'test'}.to_json)endws.on:messagedo|event|#hereistheentrypointfordatacomingfromtheserver.pJSON.parse(event.d
我正在尝试解析网页,但有时会收到404错误。这是我用来获取网页的代码:result=Net::HTTP::getURI.parse(URI.escape(url))如何测试result是否为404错误代码? 最佳答案 像这样重写你的代码:uri=URI.parse(url)result=Net::HTTP.start(uri.host,uri.port){|http|http.get(uri.path)}putsresult.codeputsresult.body这将打印状态码和正文。
我查看了Stripedocumentationonerrors,但我仍然无法正确处理/重定向这些错误。基本上无论发生什么,我都希望他们返回到edit操作(通过edit_profile_path)并向他们显示一条消息(无论成功与否)。我在edit操作上有一个表单,它可以POST到update操作。使用有效的信用卡可以正常工作(费用在Stripe仪表板中)。我正在使用Stripe.js。classExtrasController5000,#amountincents:currency=>"usd",:card=>token,:description=>current_user.email)
当profile为nil时,总是让我感到悲伤...我该怎么办? 最佳答案 在View中使用变量之前,始终检查变量是否为nil。我确信这个问题有更优雅的解决方案,但这应该能让您入门。 关于ruby-on-rails-Rails处理.Erb与Nils,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/2709605/
我有一个应用程序专门使用Facebook作为身份验证提供程序,并正确设置了生产模式的回调。为了让它工作,您需要为您的Facebook应用程序提供一个站点URL和一个用于回调的站点域,在我的例子中是http://appname.heroku.com和appname。heroku.com分别。问题是我的Controller设置为只允许经过身份验证的session,所以我无法在开发模式下查看我的应用程序,因为Facebook应用程序的域显然没有设置为本地主机。如何在不更改Facebook设置的情况下解决这个问题? 最佳答案 创建另一个域l
在python中,我们可以使用多处理模块。如果Perl和Ruby中有类似的库,你会教它吗?如果您能附上一个简短的示例,我将不胜感激。 最佳答案 ruby:WorkingwithmultipleprocessesinRubyConcurrencyisaMythinRubyPerl:HarnessingthepowerofmulticoreWhyPerlIsaGreatLanguageforConcurrentProgramming此外,Perl的线程是native操作系统线程,因此您可以使用它们来利用多核。
我读过的关于Ruby符号的每一篇文章都在谈论符号相对于字符串的效率。但是,这不是1970年代。我的电脑可以处理一些额外的垃圾收集。我错了吗?我拥有最新最好的奔腾双核处理器和4GBRAM。我认为这应该足以处理一些字符串。 最佳答案 您的计算机可能能够处理“一点点额外的垃圾收集”,但是当“一点点”发生在运行数百万次的内部循环中时呢?如果它在内存有限的嵌入式系统上运行呢?有很多地方你可以随意使用字符串,但在某些地方你不能。这完全取决于上下文。 关于ruby-现代计算机的功能是否不足以处理字符串
我如下询问了我的Rspec测试。Rspec-RuntimeError:Calledidfornil,whichwouldmistakenlybe4在相同的代码上(“items_controller.rb”的Rspec测试),我试图对“PUTupdate”进行测试。但是我收到错误消息“Paperclip::AdapterRegistry::NoHandlerError:找不到“#”的处理程序。我的Rspec测试如下。老实说,我猜这次失败的原因是“let(:valid_attributes)”上的“photo”=>File.new(Rails.root+'app/assets/images