Kubernetes监控手册03-宿主监控实操

龙渊秦五 2023-03-28 原文

生产环境大都是在 Linux 下的，所以这篇文章我们先来分享如何使用 Categraf 采集 Linux OS 相关的指标。读完本篇内容，你应该可以完成机器层面的监控了。

原理概述

Categraf 作为一款 agent 需要部署到所有目标机器上，因为采集 CPU、内存、IO、进程等指标，是需要读取 OS 里的一些信息的，远程读取不了。采集到数据之后，做格式转换，传输给监控服务端，这里我们使用 Nightingale 作为监控服务端软件。

Categraf 推送监控数据到服务端，走的是 Prometheus 的 RemoteWrite 协议，是基于 protobuf 的 HTTP 协议，所以，不止是 Nightingale，所有支持 RemoteWrite 的后端，都可以和 Categraf 对接。

软件下载

Categraf 的 GitHub 地址是：https://github.com/flashcatcloud/categraf，从 releases 下可以找到已经提前编译好的二进制，我的环境是 CentOS7，所以，选择 linux-amd64 的 tarball。

软件配置

Categraf 下载之后解压缩，最需要注意的配置是监控数据的推送地址，即下面的部分：

[[writers]]
url = "http://127.0.0.1:19000/prometheus/v1/write"

默认给的这个地址，是 n9e-server 的 RemoteWrite 数据接收地址，如果你也是用的 Nightingale，把 127.0.0.1:9090 改成你的 n9e-server 的地址即可，url 路径不用变。

如果你想让 Categraf 把数据推给 Prometheus，也 OK，此时不但要修改 IP:端口 为你的环境的 Prometheus 的地址，还要修改 url 路径，因为 Prometheus 的 RemoteWrite 数据接收地址是 /api/v1/write。最后，还要注意，Prometheus 进程启动的时候，需要增加一个启动参数：--enable-feature=remote-write-receiver，重启 Prometheus 即可接收 RemoteWrite 数据。

另外就是插件的配置，Categraf 是插件架构，内置很多采集插件，采集CPU的数据使用cpu插件，采集内存的数据使用mem插件，Categraf 的 conf 目录下，可以看到很多 input. 相关的目录，就是一个个插件的配置目录。如果有些插件不需要，删除对应的 input. 目录即可。

启动 Categraf

启动之前先做个测试，通过 ./categraf --test 看看有没有报错，正常情况的话会在命令行输出采集到的监控数据。下面是我的环境下的运行结果，供参考：

[root@tt-fc-dev01.nj categraf]# ./categraf --test --inputs mem:system
2022/11/05 09:14:31 main.go:110: I! runner.binarydir: /home/work/go/src/categraf
2022/11/05 09:14:31 main.go:111: I! runner.hostname: tt-fc-dev01.nj
2022/11/05 09:14:31 main.go:112: I! runner.fd_limits: (soft=655360, hard=655360)
2022/11/05 09:14:31 main.go:113: I! runner.vm_limits: (soft=unlimited, hard=unlimited)
2022/11/05 09:14:31 config.go:33: I! tracing disabled
2022/11/05 09:14:31 provider.go:63: I! use input provider: [local]
2022/11/05 09:14:31 agent.go:85: I! agent starting
2022/11/05 09:14:31 metrics_agent.go:93: I! input: local.mem started
2022/11/05 09:14:31 metrics_agent.go:93: I! input: local.system started
2022/11/05 09:14:31 prometheus_scrape.go:14: I! prometheus scraping disabled!
2022/11/05 09:14:31 agent.go:96: I! agent started
09:14:31 system_load_norm_5 agent_hostname=tt-fc-dev01.nj 0.3
09:14:31 system_load_norm_15 agent_hostname=tt-fc-dev01.nj 0.2675
09:14:31 system_uptime agent_hostname=tt-fc-dev01.nj 7307063
09:14:31 system_load1 agent_hostname=tt-fc-dev01.nj 1.66
09:14:31 system_load5 agent_hostname=tt-fc-dev01.nj 1.2
09:14:31 system_load15 agent_hostname=tt-fc-dev01.nj 1.07
09:14:31 system_n_cpus agent_hostname=tt-fc-dev01.nj 4
09:14:31 system_load_norm_1 agent_hostname=tt-fc-dev01.nj 0.415
09:14:31 mem_swap_free agent_hostname=tt-fc-dev01.nj 0
09:14:31 mem_used agent_hostname=tt-fc-dev01.nj 5248593920
09:14:31 mem_high_total agent_hostname=tt-fc-dev01.nj 0
09:14:31 mem_huge_pages_total agent_hostname=tt-fc-dev01.nj 0
09:14:31 mem_low_free agent_hostname=tt-fc-dev01.nj 0
...

Linux 下启动 Categraf 显然推荐使用 systemd 来启动，service 样例文件已经给大家准备好了，在 conf/categraf.service。不懂如何使用 systemd 的朋友，可以学习这个课程。

导入配置

Categraf 除了要做 All-in-one 的采集器，还希望沉淀最佳实践出来，比如 MySQL的监控采集插件的代码目录里，大家可以看到有 alerts.json 表示告警规则，导入夜莺即可使用，还有 dashboard-x.json 表示监控大盘，也是导入夜莺即可使用。dashboard-x.json 可能有多个，是因为可能有不同的查看维度，你可以都导入看看，相中哪个就用哪个。

机器相关的指标，分成了很多个插件，比如 cpu、mem、disk、net 等等，但是这些数据一般会放到一张大盘里查看，所以机器相关的告警规则和监控大盘的json放到了system目录。导入夜莺之后的查看效果如下：

另外说一下，Categraf 虽然希望沉淀出最佳实践，但是采集插件实在是太多了，而且还在逐步引入更多采集插件，有些插件我们自己也没有测试环境，需要依靠社区的力量，大家一起维护这些监控大盘和告警规则，如果有的插件缺失，欢迎你来提交PR补充，为社区建设添砖加瓦，利人利己。

总结

Kubernetes 宿主的监控，和之前传统的物理机虚拟机时代的机器监控没有本质区别。下一节开始，我们将为大家介绍如何监控工作负载节点，包括 Pod 容器、Kubelet、Kube-Proxy 等组件。

扩展阅读

关于作者

本文作者秦晓辉，快猫星云合伙人，文章内容是快猫技术团队共同沉淀的结晶，作者做了编辑整理，我们会持续输出监控、稳定性保障相关的技术文章，文章可转载，转载请注明出处，尊重技术人员的成果。

有关Kubernetes监控手册03-宿主监控实操的更多相关文章

Observability：从零开始创建 Java 微服务并监控它（二） - 2
这篇文章是继上一篇文章“Observability：从零开始创建Java微服务并监控它（一）”的续篇。在上一篇文章中，我们讲述了如何创建一个Javaweb应用，并使用Filebeat来收集应用所生成的日志。在今天的文章中，我来详述如何收集应用的指标，使用APM来监控应用并监督web服务的在线情况。源码可以在地址 https://github.com/liu-xiao-guo/java_observability 进行下载。摄入指标指标被视为可以随时更改的时间点值。当前请求的数量可以改变任何毫秒。你可能有1000个请求的峰值，然后一切都回到一个请求。这也意味着这些指标可能不准确，你还想提取最小/
ruby-on-rails - 监控多个 Rails 应用程序 - 2
是否可以在我的服务器上运行任何工具来监控多个Rails应用程序？我需要监控每个应用程序收到的请求数、每个应用程序使用了多少内存、使用了多少CPU以及其他类似的统计信息。我需要查看每个单独的Rails应用程序的统计信息。最佳答案我建议你试试NewRelicRPM.免费版:RPMLiteisthemostwidelyusedsolutionforbasicwebapplicationmonitoring.RPMLiteprovidesapplicationmonitoringforunlimitedJava,RubyorJRubya
ruby-on-rails - Rails 未定义方法 `strftime' 为 "2013-03-06":String - 2
我遇到了错误“2013-03-06”的未定义方法`strftime':String当尝试使用strftime从字符串2013-03-06正常显示日期(2013年6月3日或类似日期)时。在我的index.html.erb中执行此操作的行看起来像这样我只是在学习Rails，所以我确信这只是一个愚蠢的初学者错误，我们将不胜感激。谢谢最佳答案当strftime是时间/日期类的方法时，您的截止日期看起来是一个字符串。你可以试试这个:Date.parse(task.duedate).strftime("%B%e,%Y")
ruby-on-rails - 监控 RTMP 流，如果可用则记录 - 2
我正在寻找一种方法来监视流上的事件，以便我可以确定是否有任何内容通过流。如果有，我将开始使用rtmpdump进行录制。我想象这是通过运行一个每60秒检查一次流的cron任务来实现的。如果它确定流正在通过，则调用rtmpdump开始记录它。如果没有，则什么都不做，并在60秒后再次检查。由于rtmpdump只是在没有流数据时出现错误，因此尝试使用它来监视流似乎不是一个好主意，但也许我错了。如果我在逐个案例的基础上手动执行此操作会很容易，但我正在尝试自动执行自动录制流的任务(如果它们可用)。有没有人遇到过这样做的方法？也许我可以在命令行(linux)中使用其他一些工具？如果有帮助，我正在使用
kubernetes集群划分节点 - 2
Kubernetes（K8s）是一个用于管理容器化应用程序的开源平台，可以帮助开发人员更轻松地部署、管理和扩展应用程序。在Kubernetes中，集群划分是一种重要的概念，可以帮助我们更好地组织和管理集群中的节点和资源。本文将介绍如何使用Kubernetes对集群进行划分，并提供详细的操作示例，希望能够帮助读者更好地了解和使用Kubernetes平台。Node划分Node划分是将集群中的节点按照一定的规则进行划分。在Kubernetes中，可以使用NodeSelector和Affinity机制来实现Node划分。NodeSelectorNodeSelector是一种将Pod调度到符合特定节点标
云原生（十八） | Kubernetes篇之Kubernetes（k8s）工作负载 - 2
文章目录Kubernetes（k8s）工作负载一、Workloads二、Pod三、Deployment四、RC、RS、DaemonSet、StatefulSet五、Job、CronJob1、Job2、CronJob六、GCKubernetes（k8s）工作负载一、Workloads什么是工作负载（Workloads）工作负载是运行在Kubernetes上的一个应用程序。一个应用很复杂，可能由单个组件或者多个组件共同完成。无论怎样我们可以用一组Pod来表示一个应用，也就是一个工作负载Pod又是一组容器（Containers）所以关系又像是这样工作负载（Workloads）控制一组PodPod控制
绝对详细的 RabbitMQ 实践操作手册（一） - 2
绝对详细的RabbitMQ实践操作手册，看完本系列就够了。一、什么是MQ?1、MQ的概念2、理解消息队列二、MQ的优势和劣势1、优势和作用2、劣势三、MQ的应用场景四、AMQP五、工作原理一、什么是MQ?1、MQ的概念MQ全称MessageQueue（消息队列），是在消息的传输过程中保存消息的容器。多用于系统之间的异步通信。下面用图来理解异步通信，并阐明与同步通信的区别。同步通信：甲乙两人面对面交流，你一句我一句必须同步进行，两人除此之外不做任何事情异步通信：异步通信相当于通过第三方转述对话，可能有消息的延迟，但不需要二人时刻保持联系，消息传给第三方后，两人可以做其他自己想做的事情，当需要获取
ruby - 如何在 Node.js/RoR 中监控 20 个网站(Ping 或 HTTP)的正常运行时间 - 2
每5分钟(例如)ping20个网站的列表以了解该网站是否响应HTTP202的最佳方法是什么？最简单的想法是将20个URLS保存在数据库中，然后运行数据库并对每个URL执行ping操作。但是，当一个人不回答时会发生什么？之后的人会怎样？此外，是否有更好但更简单的解决方案？恐怕该列表会增长到20000个网站，然后没有足够的时间在我需要ping的5分钟内全部ping通它们。基本上，我是在描述PingDom、UptimeRobot等的工作原理。我正在使用node.js和RubyonRails构建这个系统。我也倾向于使用MongoDB来保存所有ping和监控结果的历史记录。建议？非常感谢!
ruby-on-rails - Rails 中的用户监控 - 2
我们有一个带有广泛管理部分的应用程序。我们对功能有点满意(就像您一样)，并且正在寻找一些快速简便的方法来监控“谁使用什么”。理想情况下，一个简单的gem将允许我们在每个用户的基础上跟踪Controller/操作，以构建使用的功能和未使用的功能的图片。任何你会推荐的..谢谢主场最佳答案我不知道有什么流行的gem或插件可以解决这个问题；过去，我在ApplicationController中将这种审计实现为before_filter:从内存中:classApplicationControllercurrent_user,:contro
ruby - 使用 Monit 监控 ruby 进程 - 2
我有一堆长时间运行的Ruby脚本，我想确保每30秒左右运行一次。我通常通过简单地启动命令rubyscript-name.rb我如何配置monit来管理这些脚本？更新:我试着关注thismethodtocreateawrapperscript然后它会启动ruby进程，但它似乎没有创建.pid文件并且键入“./wrapper-scriptstop”什么也没做:/我应该在ruby中编写pid还是使用包装脚本来创建monit所需的pid？最佳答案 MonitWiki有很多配置示例:http://mmonit.com/wiki/Mo