Prometheus相关的主机监控指标

MichaelCoCoQ 2023-12-29 原文

一、CPU监控

CPU负载指标

node_load1

node_load5

node_load15

以上三个指标为主机CPU平均负载，分别对应一分钟、五分钟和十五分钟的时间间隔。CPU负载是指某段时间内占用CPU时间的进程和等待CPU时间的进程数之和。一般来说，cpu负载数/cpu核数如果超过0.7，应该开始关注机器性能情况，如果超过1的话，运维人员应该介入处理。

CPU使用率

node_cpu_seconds_total

该指标包括了多个标签，分别标记每种处理模式使用的CPU时间，该指标为counter类型。这个指标不适合直接拿来使用，可通过前面学习的PromQL，将其转化成CPU使用率的指标

mode="idle"代表CPU 的空闲时间，所以我们只需要算出空闲的时间占比，再以总数减去该值，便可知道CPU的使用率，此处使用irate方法。由于现有的服务器一般为多核，所以加上avg求出所有cpu的平均值，才是CPU的使用率情况。

例:100 -avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by (instance)* 100

二、内存监控

物理内存使用率

对于内存，我们一般会关注内存的使用率，但node-exporter并不直接进行计算，我们需要根据node-exporet返回的内存指标自己写计算公式：

例:

node_memory_MemTotal_bytes #总内存大小

node_memory_MemFree_bytes #空闲内存大小

node_memory_Buffers_bytes #缓冲缓存大小

node_memory_Cached_bytes #页面缓存大小

计算的公式为：（总内存 -（空闲内存 + 缓冲缓存 + 页面缓存））/ 总内存 * 100

(node_memory_MemTotal_bytes - (node_memory_MemFree_bytes + node_memory_Buffers_bytes+node_memory_Cached_bytes ))/node_memory_MemTotal_bytes * 100

swap内存使用率

Swap为交换内存分区，它使用磁盘上的部分空间来充当服务器内存，当系统物理内存吃紧时，Linux 会将内存中不常访问的数据保存到 swap 上，这样系统就有更多的物理内存为各个进程服务。而当系统需要访问 swap 上存储的内容时，再将 swap 上的数据加载到内存中，这就是常说的换出和换入。交换空间可以在一定程度上缓解内存不足的情况，但是它需要读写磁盘数据，所以性能不是很高。

例:

node_memory_SwapTotal_bytes #swap内存总大小

node_memory_SwapFree_bytes #swap空闲内存大小

计算的公式：

(node_memory_SwapTotal_bytes - node_memory_SwapFree_bytes)/node_memory_SwapTotal_bytes * 100

三、磁盘监控

磁盘分区使用率

分区使用率的指标可以通过分区空间总容器和分区空闲容量计算出来

node_filesystem_size_bytes #分区空间总容量

node_filesystem_free_bytes # 分区空闲容量

由于主机一般会有多个分区，需要通过指标的标签mountpoint 进行区分，如获取 / 分区磁盘使用率可使用公式:

(node_filesystem_size_bytes{mountpoint="/"} - node_filesystem_free_bytes{mountpoint="/"})/node_filesystem_size_bytes{mountpoint="/"} * 100

磁盘吞吐量

node_disk_read_bytes_total #分区读总字节数

node_disk_written_bytes_total #分区写总字节数

指标分别对应了分区读写的总字节数，指标为counter类型。前面文章讲过，counter类型会不断的累加，该指标直接使用对于监控没有意义，但可通过下面公式转化为磁盘的每秒读写速率。device代表对应的磁盘分区。

irate(node_disk_read_bytes_total{device="vda"}[5m])

irate(node_disk_written_bytes_total{device="vda"}[5m])

磁盘IOPS

IOPS表示每秒对磁盘的读写次数，它与吞吐量都是衡量磁盘的重要指标。对于IOPS的监控，可通过下面两个指标算得出

node_disk_reads_completed_total #分区读总次数

node_disk_writes_completed_total #分区写总次数

计算公式，使用我们熟悉的irate或rate函数来处理

irate(node_disk_reads_completed_total{device="vda"}[5m])

irate(node_disk_writes_completed_total{device="vda"}[5m])

四、网络监控

网卡流量

网卡流量一般分为上传和下载流量，下面两个指标分别为总的字节数，可通过这两个指标计算出来网卡每秒流量

node_network_receive_bytes_total #下载流量总字节数

node_network_transmit_bytes_total #上传流量总字节数

计算公式如下，此处排除Loopback 网卡

irate(node_network_receive_bytes_total{device != "lo"}[1m]

可用性监控

除了监控主机的性能参数外，我们还需要关注实例的可用性情况，比如是否关机、exporter是否正常运行等。在exporter返回的指标，有一个up指标，可用来实现这类监控需求。

up{job="node-exporter"}

主机监控是基础架构监控中较底层的一类，虽然基础但是非常重要，node-exporter自身还提供不少有用的指标，包括支持textfile的自定义指标。在生产环境中，需要根据实际情况进行调试。

博客可能不能及时回复问题，技术问题欢迎加入交流。

具有丰富的模板开发及项目落地、管理经验分享欢迎加入交流

微信号:king_songax

有关Prometheus相关的主机监控指标的更多相关文章

ruby-on-rails - 相关表上的范围为 "WHERE ... LIKE" - 2
我正在尝试从Postgresql表(table1)中获取数据，该表由另一个相关表(property)的字段(table2)过滤。在纯SQL中，我会这样编写查询:SELECT*FROMtable1JOINtable2USING(table2_id)WHEREtable2.propertyLIKE'query%'这工作正常:scope:my_scope,->(query){includes(:table2).where("table2.property":query)}但我真正需要的是使用LIKE运算符进行过滤，而不是严格相等。然而，这是行不通的:scope:my_scope,->(que
ruby - 即使失败也继续进行多主机测试 - 2
我已经构建了一些serverspec代码来在多个主机上运行一组测试。问题是当任何测试失败时，测试会在当前主机停止。即使测试失败，我也希望它继续在所有主机上运行。Rakefile:namespace:specdotask:all=>hosts.map{|h|'spec:'+h.split('.')[0]}hosts.eachdo|host|begindesc"Runserverspecto#{host}"RSpec::Core::RakeTask.new(host)do|t|ENV['TARGET_HOST']=hostt.pattern="spec/cfengine3/*_spec.r
ruby - 从 Ruby 中的主机名获取 IP 地址 - 2
我有一个存储主机名的Ruby数组server_names。如果我打印出来，它看起来像这样:["hostname.abc.com","hostname2.abc.com","hostname3.abc.com"]相当标准。我想要做的是获取这些服务器的IP(可能将它们存储在另一个变量中)。看起来IPSocket类可以做到这一点，但我不确定如何使用IPSocket类遍历它。如果它只是尝试像这样打印出IP:server_names.eachdo|name|IPSocket::getaddress(name)pnameend它提示我没有提供服务器名称。这是语法问题还是我没有正确使用类？输出:ge
Observability：从零开始创建 Java 微服务并监控它（二） - 2
这篇文章是继上一篇文章“Observability：从零开始创建Java微服务并监控它（一）”的续篇。在上一篇文章中，我们讲述了如何创建一个Javaweb应用，并使用Filebeat来收集应用所生成的日志。在今天的文章中，我来详述如何收集应用的指标，使用APM来监控应用并监督web服务的在线情况。源码可以在地址 https://github.com/liu-xiao-guo/java_observability 进行下载。摄入指标指标被视为可以随时更改的时间点值。当前请求的数量可以改变任何毫秒。你可能有1000个请求的峰值，然后一切都回到一个请求。这也意味着这些指标可能不准确，你还想提取最小/
ruby - 允许主机名包含下划线的 URI.parse 的替代方法 - 2
我正在使用DMOZ的listofurltopics，其中包含一些具有包含下划线的主机名的url。例如:608609TheOuterHeaven610InformationandimagegalleryofMcFarlane'sactionfiguresforTrigun,Akira,TenchiMuyoandotherJapaneseSci-Fianimations.611Top/Arts/Animation/Anime/Collectibles/Models_and_Figures/Action_Figures612虽然此url可以在网络浏览器中使用(或者至少在我的浏览器中可以使用:
ruby-on-rails - 在具有 ActiveRecord 条件的相关模型中按字段排序 - 2
我正在尝试按Rails相关模型中的字段进行排序。我研究的所有解决方案都没有解决如果相关模型被另一个参数过滤？元素模型classItem相关模型:classPriority我正在使用where子句检索项目:@items=Item.where('company_id=?andapproved=?',@company.id,true).all我需要按相关表格中的“位置”列进行排序。问题在于，在优先级模型中，一个项目可能会被多家公司列出。因此，这些职位取决于他们拥有的company_id。当我显示项目时，它是针对一个公司的，按公司内的职位排序。完成此任务的正确方法是什么？感谢您的帮助。PS-我
Ruby 服务器在本地主机(teambox)之外非常慢 - 2
我刚刚在我的Ubuntu9.10服务器上安装了TeamBox。我使用提供的服务器脚本在端口3000上启动并运行它。它的运行速度非常慢，从另一台计算机连接时每个HTTP请求最多需要30秒。我使用链接从shell加载TeamBox，一点也不花时间。然后我设置了一个SSH隧道，它再次运行得非常快。我通过此服务器上的apache以及SAMBA等运行了大约30个虚拟主机，没有任何问题。我该如何解决这个问题？最佳答案我的redmine(ruby，webrick)太慢了。现在我解决了这个问题:apt-getinstallmongrelruby
ruby - 使用指向 ruby 可执行文件的符号链接(symbolic link)时查找相关库 - 2
假设您有一个可执行文件foo.rb，其库bar.rb的布局如下:/bin/foo.rb/lib/bar.rb在foo.rb的header中放置以下要求以在bar.rb中引入功能:requireFile.dirname(__FILE__)+"../lib/bar.rb"只要对foo.rb的所有调用都是直接的，这就可以正常工作。如果你把$HOME/project和符号链接(symboliclink)foo.rb放入$HOME/usr/bin,然后__FILE__解析为$HOME/usr/bin/foo.rb,因此无法找到bar.rb关于foo.rb的目录名.我意识到像rubygems这
HarmonyOS原子化服务开发相关术语 - 2
术语中文解释Ability原子化服务帮助用户完成任务的原子化服务，和用户的意图进行关联。Fulfillment服务履行通过图标，卡片，语音等形式呈现用户意图。开发者通过接口的方式，处理用户意图，返回内容。Intent意图用于表达用户想要达成的目标或完成的任务。HUAWEIAssistant智能助手“无微不智”的个人助手，通过不断的学习用户的使用习惯，不断的为用户提供贴心的精准的便捷的个性化服务。AISearch全局搜索用户可快速搜索关键词，与之匹配的原子化服务则会出现在搜索结果中。SmartService智慧服务用户订阅原子化服务，在到达特定触发条件（时间、地点、事件）后，卡片推送至用户智能助
H2数据库配置及相关使用方式一站式介绍（极为详细并整理官方文档） - 2
目录H2数据库入门以及实际开发时的使用1.H2数据库的初识1.1H2数据库介绍1.2为什么要使用嵌入式数据库？1.3嵌入式数据库对比1.3.1性能对比1.4技术选型思考2.H2数据库实战2.1H2数据库下载搭建以及部署2.1.1H2数据库的下载2.1.2数据库启动2.1.2.1windows系统可以在bin目录下执行h2.bat2.1.2.2同理可以通过cmd直接使用命令进行启动：2.1.2.3启动后控制台页面：2.1.3spring整合H2数据库2.1.3.1引入依赖文件2.1.4数据库通过file模式实际保存数据的位置2.2H2数据库操作2.2.1Mysql兼容模式2.2.2Mysql模式