Promethues （普罗米修斯）详细介绍

叶言灬 2024-05-13 原文

引言

zabbix是传统的监控系统，出现比云原生早，使用的是SQL关系型数据库；而Prometheus基于谷歌的borgemon使用go语言开发，使用TSDB数据库，所以支持云原生。zabbix最新发布的6.0版本，知道自己处于生死存亡时刻，也支持了Prometheus使用的TSDB数据库。

一、Prometheus 概述

1、什么是Prometheus

Prometheus 是一个开源的服务监控系统和时序数据库，其提供了通用的数据模型和快捷数据采集、存储和查询接口。它的核心组件Prometheus server会定期从静态配置的监控目标或者基于服务发现自动配置的自标中进行拉取数据，当新拉取到的数据大于配置的内存缓存区时，数据就会持久化到存储设备当中。

1.每个被监控的主机都可以通过专用的exporter 程序提供输出监控数据的接口，它会在目标处收集监控数据，并暴露出一个HTTP接口供Prometheus server查询，Prometheus通过基于HTTP的pull的方式来周期性的采集数据。
2.任何被监控的目标都需要事先纳入到监控系统中才能进行时序数据采集、存储、告警和展示，监控目标可以通过配置信息以静态形式指定，也可以让Prometheus通过服务发现的机制进行动态管理。
3.Prometheus 能够直接把API Server作为服务发现系统使用，进而动态发现和监控集群中的所有可被监控的对象。

2、Zabbix和Prometheus区别

1.和Zabbix类似，Prometheus也是一个近年比较火的开源监控框架，和Zabbix不同之处在于Prometheus相对更灵活点，模块间比较解耦，比如告警模块、代理模块等等都可以选择性配置。服务端和客户端都是开箱即用，不需要进行安装。zabbix则是一套安装把所有东西都弄好，很庞大也很繁杂。
2.zabbix的客户端 agent 可以比较方便的通过脚本来读取机器内数据库、日志等文件来做上报。而 Prometheus 的上报客户端则分为不同语言的SDK和不同用途的 exporter 两种，比如如果你要监控机器状态、mysql性能等，有大量已经成熟的 exporter 来直接开箱使用，通过http 通信来对服务端提供信息上报（server去pull信息）；而如果你想要监控自己的业务状态，那么针对各种语言都有官方或其他人写好的 sdk供你使用，都比较方便，不需要先把数据存入数据库或日志再供zabbix-agent采集。
3.zabbix的客户端更多是只做上报的事情，push模式。而Prometheus则是客户端本地也会存储监控数据，服务端定时来拉取想要的数据。
4.界面来说zabbix比较陈旧，而prometheus比较新且非常简洁，简洁到只能算一个测试和配置平台。要想获得良好的监控体验，搭配Grafana还是二者的必走之路。

3、Prometheus的特点

多维数据模型：由度量名称和键值对标识的时间序列数据
时序数据，是在一段时间内通过重复测量（measurement）而获得的观测值的集合；将这些观测值绘制于图形之上，它会有一个数据轴和一个时间轴；

服务器指标数据、应用程序性能监控数据、网络数据等也都是时序数据；

1.内置时间序列（pime series）数据库：Prometheus；外置的远端存储通常会用：InfluxDB、openTsDB等
2.promQL一种灵活的查询语言，可以利用多维数据完成复杂查询
3.基于HTTP的pull（拉取）方式采集时间序列数据
4.同时支持PushGateway组件收集数据
5.通过服务发现或者静态配置，来发现目标服务对象
6.支持作为数据源接入Grafana

二、运维监控平台设计思路

① 数据收集模块
② 数据提取模块(prometheus-TSDB,查询语言是promQL)
③ 监控告警模块（布尔值表达式判断是否需要告警，不成立是健康状态）

可以细化为6层

第六层:用户展示管理层同一用户管理、集中监控、集中维护
第五层:告警事件生成层实时记录告警事件、形成分析图表（趋势分析、可视化)
第四层:告警规则配置层告警规则设置、告警伐值设置（定义布尔值表达式，筛选异常状态）
第三层:数据提取层定时采集数据到监控模块
第二层:数据展示层数据生成曲线图展示（对时序数据的动态展示)
第一层:数据收集层多渠道监控数据（网络，硬件，应用，数据，物理环境）

三、Prometheus监控体系

1、系统层监控（需要监控的数据）

1.CPU、Load、Memory、swap、disk、I/O、process等
2.网络监控：网络设备、工作负载、网络延迟、丢包率等

2、中间件及基础设施类监控

1.消息中间件：kafka、RocketMQ、等消息代理（redis 中间件）
2.WEB服务容器：tomcat、weblogic、apache、php、spring系列
3.数据库/缓存数据库：Mysql、Postgresql、MongoDB、es、redis

2.1 redis监控内容

① redis的服务状态
② redis所在服务器的系统层监控
③ RDB和AOF日志监控

日志--->如果是哨兵模式--->哨兵共享集群信息，产生的日志--->直接包含的其他节点哨兵信息及mysql信息

3、应用层监控

用于衡量应用程序代码状态和性能

监控的分类：

白盒监控：自省指标，等待被下载（cadvisor）
黑盒监控：基于探针（snmp）的监控方式，不会主动干预、影响数据

4、业务层监控

用于衡量应用程序的价值，如电商业务的销售量，ops、dau日活、转化率等，

业务接口：登入数量，注册数、订单量、搜索量和支付量

四、prometheus时间序列数据

时序数据，是在一段时间内通过重复测量(measurement）而获得的观测值的集合将这些观测值绘制于图形之上，它会有一个数据轴和一个时间轴，服务器指标数据、应用程序性能监控数据、网络数据等也都是时序数据

1、数据来源

prometheus基于HTTP call (http/https请求），从配置文件中指定的网络端点(endpoint/IP:端口）上周期性获取指标数据。
很多环境、被监控对象，本身是没有直接响应/处理http请求的功能，prometheus-exporter则可以在被监控端收集所需的数据，收集过来之后，还会做标准化，把这些数据转化为prometheus可识别，可使用的数据（兼容格式）

2、收集数据

监控概念:白盒监控、黑盒监控
白盒监控:自省方式，被监控端内部，可以自己生成指标，只要等待监控系统来采集时提供出去即可
黑盒监控:对于被监控系统没有侵入性，对其没有直接"影响"，这种类似于基于探针机制进行监控（snmp协议）

Prometheus支持通过三种类型的途径从目标上"抓取（Scrape)"指标数据（基于白盒监控);

Exporters ——>工作在被监控端，周期性的抓取数据并转换为pro兼容格式等待prometheus来收集，自己并不推送
Instrumentation ——>指被监控对象内部自身有数据收集、监控的功能，只需要prometheus直接去获取
Pushgateway ——>短周期5s—10s的数据收集

3、prometheus(获取方式)

Prometheus同其它TSDB相比有一个非常典型的特性:它主动从各Target上拉取(pull)数据，而非等待被监控端的推送(push)

两个获取方式各有优劣，其中，Pull模型的优势在于:
集中控制:有利于将配置集在Prometheus server上完成，包括指标及采取速率等;
Prometheus的根本目标在于收集在rarget上预先完成聚合的聚合型数据，而非一款由事件驱动的存储系统
通过targets（标识的是具体的被监控端）
比如配置文件中的 targets:['localhost:9090']

五、prometheus生态组件

1、Prometheus Server

收集和储存时间序列数据

Prometheus server：服务核心组件，采用pull方式收集监控数据，通过http协议传输。并存储时间序列数据。Prometheus server 由三个部分组成：Retrival，Storage，PromQL

Retrieval：负责在活跃的target 主机上抓取监控指标数据。
Storage：存储，主要是把采集到的数据存储到磁盘中。默认为15天（可修改）。
PromQL：是Prometheus提供的查询语言模块。

2、Client Library

client Library：客户端库，目的在于为那些期望原生提供 Instrumentation 功能的应用程序提供便捷的开发途径，用于基于应用程序内建的测量系统。

3、Push Gateway

Pushgateway：类似一个中转站，Prometheus的server端只会使用pull方式拉取数据，但是某些节点因为某些原因只能使用push方式推送数据，那么它就是用来接收push而来的数据并暴露给Prometheus的server拉取的中转站。可以理解成目标主机可以上报短期任务的数据到Pushgateway，然后Prometheus server 统一从Pushgateway拉取数据。

4、Exporters

用于暴露现有应用程序或服务（不支持Instrumentation)的指标给Prometheus Server

而pro内建了数据样本采集器，可以通过配置文件定义，告诉prometheus到那个监控对象中采集指标数据，prometheus 采集过后，会存储在自己内建的TSDB数据库中，提供了promQL 支持查询和过滤操作，同时支持自定义规则来作为告警规则，持续分析一场指标，一旦发生，通知给alerter来发送告警信息，还支持对接外置的UI工具（grafana）来展示数据

采集、抓取数据是其自身的功能，但一般被抓去的数据一般来自于:
export/instrumentation （指标数据暴露器）来完成的，或者是应用程序自身内建的测量系统（汽车仪表盘之类的，测量、展示）来完成

5、Alertmanager

Alertmanager：是一个独立的告警模块，从Prometheus server端接收到“告警通知”后，会进行去重、分组，并路由到相应的接收方，发出报警，常见的接收方式有：电子邮件、钉钉、企业微信等。

1.Prometheus Server 仅负责生成告警指示，具体的告警行为由另一个独立的应用程序AlertManager负责；
2.告警指示由 Prometheus Server基于用户提供的告警规则周期性计算生成，Alertmanager 接收到Prometheus Server发来的告警指示后，基于用户定义的告警路由向告警接收人发送告警信息。

6、Service Discovery

Service Discovery：服务发现，用于动态发现待监控的Target，Prometheus支持多种服务发现机制：文件、DNS、Consul、Kubernetes等等。

服务发现可通过第三方提供的接口，Prometheus查询到需要监控的Target列表，然后轮询这些Target 获取监控数据。该组件目前由Prometheus Server内建支持

7、grafana

Grafana：是一个跨平台的开源的度量分析和可视化工具，可以将采集的数据可视化的展示，并及时通知给告警接收方。其官方库中具有丰富的仪表盘插件。

Prometheus 数据流向

① Prometheus server 定期从配置好的 jobs 或者 exporters 中拉取 metrics，或者接收来自 Pushgateway 发送过来的metrics，或者从其它的Prometheus server中拉取 metrics。
② Prometheus server在本地存储收集到的 metrics，并运行定义好的 alerts.rules，记录新的时间序列或者向Alert manager推送警报。
③ Alertmanager 根据配置文件，对接收到的警报进行处理，发出告警。
④ 在图形界面中，可视化采集数据。

六、prometheus工作原理

1、prometheus工作模式

1. Prometheus Server 基于服务发现（Service Discovery）机制或静态配置获取要监视的目标（Target），并通过每个目标上的指标 exporter来采集（Scrape）指标数据；
2. Prometheus Server 内置了一个基于文件的时间序列存储来持久存储指标数据，用户可使用PromQL接口来检索数据，也能够按需将告警需求发往Altermanager完成告警内容发送；
3. 一些短期运行的作业的生命周期过短，难以有效地将必要的指标数据供给到Server端，它们一般会采用推送（Push）方式输出指标数据，Prometheus借助于Pushgateway 接收这些推送的数据，进而由server端进行抓取

2、prometheus工作流程

① Prometheus以prometheus Server 为核心，用于收集和存储时间序列数据。Prometheus Server从监控目标中通过pull方式拉取指标数据，或通过pushgateway 把采集的数据拉取到Prometheus server中。
② Prometheus server 把采集到的监控指标数据通过 TSDB存储到本地HDD/ssD中。
③ Prometheus 采集的监控指标数据按时间序列存储，通过配置报警规则，把触发的报警发送到Alertmanager。
④ Alertmanager 通过配置报警接收方，发送报警到邮件、钉钉或者企业微信等。
⑤ Prometheus 自带的Web UI 界面提供 PromQL 查询语言，可查询监控数据。
⑥ Grafana 可接入Prometheus 数据源，把监控数据以图形化形式展示出。

ps:告警数据采集、告警信息提取、告警通知

① 首先，需要采集监控数据，pro会周期性的pull或被push指标数据，数据采集的方式主要包括exporters、instrumentation、pushgateway 3种方式，前两者为pull方式获取，pushgateway借助于push方式推送给prometheus。
② 根据prometheus配置文件中（K8S-configmap的配置种），获取被监控端的数据之后，保存在TSDB中，我们可以借助Grafana或者告警平台来展示数据，grafana的展示是通过PromQL来获取数据。
③ prometheus通过rule配置来借助于PromQL来定义布尔值表达式，产生告警信息
④ 一旦出现告警，prometheus产生告警信息，发送给altermanager,altermanager根据自定义的告警路由，来进行告警通知，对接第三方平台，例如告警平台、邮件、钉钉。

3、prometheus的局限性

1. Prometheus是一款指际监控系统，不适合存储事件及日志等；它更多地展示的是趋势性的监控，而非精准数据；
2. Prometheus认为只有最近的监控数据才有查询的需要，其本地存储的设计初衷只是保存短期（例如一个月）数据，因而不支持针对大量的历史数据进行存储；若需要存储长期的历史数据，建议基于远端存储机制将数据保存于InfluxDB或openTsDB等系统中；
3. Prometheus的集群机制成熟度不高，可基于Thanos（和灭霸是一个单词）实现Prometheus集群的高可用及联邦集群

总结

1、prometheus如何收集k8s/服务的–三种方式收集

Exporters（指标暴露器）：收集节点的信息、将数据格式化或转化为 promtheus 可识别的http这种转化方式/镜像拉取方式
Instrumentation （应用内置的指标暴露器）：收集有内置指标暴露器的信息
Pushgateway ：收集短周期的数据

2 、如何防止告警信息轰炸

alertmanagr: prometheus可以生成告警信息，但是不能直接提供告警，需要使用一个外置的组件alertmanager来进行告警，emailetctif优势在于，收敛、支持静默、去重、可以防止告警信息的轰炸
把这条告警规则中的支持静默开启，让它必须，配置文件里直接改alertmanager改一个单词

3、prometheus监控什么

级别	监控什么	exporter
网络	网络协议：http、dns、tcp、icmp; 网路硬件：路由器、交换机等	BlockBox Exporter;SNMP Exporter
主机	资源用量	node exporter
容器	资源用量	cadvisor
应用（包括Library）	延迟、错误，QPS,内部状态	代码集中集成Prometheus Client
中间件状态	资源用量，以及服务状态	代码集中集成Prometheus Client
编排工具	集群资源用量，调度等	Kubernetes Components

4、常见的时间序列数据库

TSDB项目	官网
influxDB	InfluxDB: Open Source Time Series Database \| InfluxData
RRDtool	RRDtool - About RRDtool
Graphite	Graphite
OpenTSDB	OpenTSDB - A Distributed, Scalable Monitoring System
Kdb+	KX: The Leading Provider of Time-Series Database Technology
Druid	Druid \| Database for modern analytics applications
KairosDB	KairosDB
Prometheus	Prometheus - Monitoring system & time series database

有关Promethues （普罗米修斯）详细介绍的更多相关文章

Unity 热更新技术 | （三） Lua语言基本介绍及下载安装 - 2
?博客主页：https://xiaoy.blog.csdn.net?本文由呆呆敲代码的小Y原创，首发于CSDN??学习专栏推荐：Unity系统学习专栏?游戏制作专栏推荐：游戏制作?Unity实战100例专栏推荐：Unity实战100例教程?欢迎点赞?收藏⭐留言?如有错误敬请指正！?未来很长，值得我们全力奔赴更美好的生活✨------------------❤️分割线❤️-------------------------
在VMware16虚拟机安装Ubuntu详细教程 - 2
在VMware16.2.4安装Ubuntu一、安装VMware1.打开VMwareWorkstationPro官网，点击即可进入。2.进入后向下滑动找到Workstation16ProforWindows，点击立即下载。3.下载完成，文件大小615MB，如下图：4.鼠标右击，以管理员身份运行。5.点击下一步6.勾选条款，点击下一步7.先勾选，再点击下一步8.去掉勾选，点击下一步9.点击下一步10.点击安装11.点击许可证12.在百度上搜索VM16许可证，复制填入，然后点击输入即可，亲测有效。13.点击完成14.重启系统，点击是15.双击VMwareWorkstationPro图标，进入虚拟机主
100个python算法超详细讲解：画直线 - 2
1．问题描述使用Python的turtle（海龟绘图）模块提供的函数绘制直线。2．问题分析一幅复杂的图形通常都可以由点、直线、三角形、矩形、平行四边形、圆、椭圆和圆弧等基本图形组成。其中的三角形、矩形、平行四边形又可以由直线组成，而直线又是由两个点确定的。我们使用Python的turtle模块所提供的函数来绘制直线。在使用之前我们先介绍一下turtle模块的相关知识点。turtle模块提供面向对象和面向过程两种形式的海龟绘图基本组件。面向对象的接口类如下：1）TurtleScreen类：定义图形窗口作为绘图海龟的运动场。它的构造器需要一个tkinter.Canvas或ScrolledCanva
H2数据库配置及相关使用方式一站式介绍（极为详细并整理官方文档） - 2
目录H2数据库入门以及实际开发时的使用1.H2数据库的初识1.1H2数据库介绍1.2为什么要使用嵌入式数据库？1.3嵌入式数据库对比1.3.1性能对比1.4技术选型思考2.H2数据库实战2.1H2数据库下载搭建以及部署2.1.1H2数据库的下载2.1.2数据库启动2.1.2.1windows系统可以在bin目录下执行h2.bat2.1.2.2同理可以通过cmd直接使用命令进行启动：2.1.2.3启动后控制台页面：2.1.3spring整合H2数据库2.1.3.1引入依赖文件2.1.4数据库通过file模式实际保存数据的位置2.2H2数据库操作2.2.1Mysql兼容模式2.2.2Mysql模式
华为ensp详细安装包、安装教程及所遇问题 - 2
目录一、安装包链接二、安装详细步骤1.安装Wireshark和WinPcap2.安装OracleVMVirtualBox3.安装ensp三、安装后注册四、启动路由器出现40错误怎么解决一、安装包链接二、安装详细步骤链接:https://pan.baidu.com/s/1QbUUYMOMIV2oeIKHWP1SpA?pwd=xftx提取码：xftx1.安装Wireshark和WinPcap找到Wireshark安装包所在文件夹，双击它，按照以下步骤安装。2.安装OracleVMVirtualBox找到OracleVMVirtualBox安装包所在文件夹，双击它，按照以下步骤安装。注：可自定义安装
Linux操作系统CentOS7安装Nginx[详细版] - 2
Nginx安装1.官网下载Nginx2.使用XShell和Xftp将压缩包上传到Linux虚拟机中3.解压文件nginx-1.20.2.tar.gz4.配置nginx5.启动nginx6.拓展（修改端口和常用命令）（一）修改nginx端口（二）常用命令1.官网下载Nginxhttp://nginx.org/en/download.html这里我下载的是1.20.2版本，大家按需下载对应稳定版即可2.使用XShell和Xftp将压缩包上传到Linux虚拟机中没有XShell可以参考《Linux操作系统CentOS7连接XShell》3.解压文件nginx-1.20.2.tar.gz1）检查是否存
Anaconda3、TensorFlow和keras简单安装方法（较详细） - 2
因学习需要用到keras，通过查找较多资料最终完成Anaconda、TensorFlow和Keras的简单安装。因为网上的相关资料较多但大部分不够全面，查找起来不太方便，因此自己记录一下成功下载安装的详细过程,顺便推荐一下借鉴的写的很好的相关教程文章。keras需要在TensorFlow之上才能运行，所以要先安装TensorFlow，而TensorFlow只能在3.7以前的python版本中运行，所以需要先创建一个基于python3.6的虚拟环境，因此便需要先下载Anaconda。一、Anaconda3下载和安装Anaconda下载安装教程原文链接：https://blog.csdn.net/
【动态规划】背包问题（详细总结，很全） - 2
【动态规划】一、背包问题1.背包问题总结1）动规四部曲：2）递推公式总结：3）遍历顺序总结：2.01背包1）二维dp数组代码实现2）一维dp数组代码实现3.完全背包代码实现4.多重背包代码实现一、背包问题1.背包问题总结暴力的解法是指数级别的时间复杂度。进而才需要动态规划的解法来进行优化！背包问题是动态规划（DynamicPlanning）里的非常重要的一部分,关于几种常见的背包，其关系如下：在解决背包问题的时候，我们通常都是按照如下五部来逐步分析，把这五部都搞透了，算是对动规来理解深入了。1）动规四部曲：（1）确定dp数组及其下标的含义（2）确定递推公式（3）dp数组的初始化（4）确定遍历顺
一文让你彻底掌握操作符（超详细教程） - 2
✅作者简介：大家好，我是小杨📃个人主页：「小杨」的csdn博客🔥系列专栏：小杨带你玩转C语言【初阶】🐳希望大家多多支持🥰一起进步呀！大家好呀！我是小杨。小杨花几天的时间将C语言中的操作符这部分知识做了一个大总结，在方便自己复习的同时也能够帮助到大家。通篇字数在一万字左右，可以算作是非常详细了，一文就可以带领大家彻底掌握操作符这部分内容，文章很长建议先收藏再看，防止下次想看就找不到啦。文章目录✍1，算术操作符✍2，移位操作符 🔍2.1,左移操作符 🔍2.2,右移操作符 ✨2.2.1,算术移位 ✨2.2.2,逻辑移位✍3，位操作符 🔍3.1,按位与&
nginx配置https后报错nginx: [emerg] https protocol requires SSL support in XXX.conf详细解决方法 - 2
一、前言最近，在测试环境的nginx里增加了一个https配置：location/api-meeting-qq/{proxy_passhttps://api.meeting.qq.com/;}然后，执行命令：//这个是nginx启动文件的路径，根据实际情况自行更改sudo/home/useradmin/nginx/sbin/nginx-sreload结果，nginx就报错了：nginx:[emerg]httpsprotocolrequiresSSLsupportin/home/useradmin/nginx/conf.d/trainNginx.conf:9二、解决方法百度发现，是之前安装ngi