前言运维工程师的3大核心职能:服务器资源管理、变更管理、故障管理;目前维护一些云原生项目,这些项目采用K8s部署,相较于传统的监控,Kubernetes云监控会面临以下棘手问题;容器的封闭性、隔离性容器的动态调度容器网络的虚拟化、软件定义网络我想通过1款监控系统对物理服务器层系统层网络层K8s集群层运行在K8s集群之上的基础设施类应用+业务类应用(应用层)进行全方位无死角监控;一款监控系统软件应具备以下核心功能数据采集:通过pull/push的方式采集数据数据存储:SQL、NoSQL(K/V、Document、Colum列式存储、TSDB时序数据库)展示:Grafana告警:通过各种媒介(E-
来源:cnblogs.com/xiaoyuxixi/p/12235979.html新公司要上监控,面试提到了Prometheus是公司需要的监控解决方案,我当然是选择跟风了。之前主要做的是Zabbix,既然公司需要Prometheus,那没办法,只能好好对比一番,了解下,毕竟技多不压身。但稍稍深入一点,我就体会到了Prometheus的优点,总结一下这两种监控方式。两种监控工具的历史简介PrometheusKubernetes自从2012年开源以来便以不可阻挡之势成为容器领域调度和编排的领头羊。Kubernetes是GoogleBorg系统的开源实现,于此对应Prometheus则是Googl
来源:cnblogs.com/xiaoyuxixi/p/12235979.html新公司要上监控,面试提到了Prometheus是公司需要的监控解决方案,我当然是选择跟风了。之前主要做的是Zabbix,既然公司需要Prometheus,那没办法,只能好好对比一番,了解下,毕竟技多不压身。但稍稍深入一点,我就体会到了Prometheus的优点,总结一下这两种监控方式。两种监控工具的历史简介PrometheusKubernetes自从2012年开源以来便以不可阻挡之势成为容器领域调度和编排的领头羊。Kubernetes是GoogleBorg系统的开源实现,于此对应Prometheus则是Googl
前文我们了解了Ceph之上的RadosGW基础使用相关话题,回顾请参考https://www.cnblogs.com/qiuhom-1874/p/16768998.html;今天我们来聊一聊Ceph启用Dashboard和使用Prometheus监控Ceph相关话题; MGR组件作用 Ceph在早些版本(L版之前)都是没有MGR这个组件的,L版之前,ceph集群相关监控数据都是靠mon节点完成,为了减轻mon节点的压力,ceph集群相关状态数据的功能在L版之后被独立出来,用MGR来负责,MGR主要作用是用于责跟踪运行时指标和Ceph集群的当前状态,包括存储利用率,当前性能指标和系统负载
前文我们了解了Ceph之上的RadosGW基础使用相关话题,回顾请参考https://www.cnblogs.com/qiuhom-1874/p/16768998.html;今天我们来聊一聊Ceph启用Dashboard和使用Prometheus监控Ceph相关话题; MGR组件作用 Ceph在早些版本(L版之前)都是没有MGR这个组件的,L版之前,ceph集群相关监控数据都是靠mon节点完成,为了减轻mon节点的压力,ceph集群相关状态数据的功能在L版之后被独立出来,用MGR来负责,MGR主要作用是用于责跟踪运行时指标和Ceph集群的当前状态,包括存储利用率,当前性能指标和系统负载
简介之前笔者有连续2篇文章:Prometheus性能调优-什么是高基数问题以及如何解决?如何精简Prometheus的指标和存储占用陆续介绍了一些Prometheus的性能调优技巧,包括高基数问题的解决以及精简Prometheus的指标和存储占用。今天再介绍一个新的调优思路:水平分片。水平分片如果你正在面临的不是因为label导致的高基数问题,而是因为监控规模的急剧扩张导致需要被监控的instance非常庞大时,可以通过Prometheus的hashmodrelabelaction来优化性能。通过这种办法,面对成千上万的instance时,一台Prometheus只需要监控其中的所有各种各样实
简介之前笔者有连续2篇文章:Prometheus性能调优-什么是高基数问题以及如何解决?如何精简Prometheus的指标和存储占用陆续介绍了一些Prometheus的性能调优技巧,包括高基数问题的解决以及精简Prometheus的指标和存储占用。今天再介绍一个新的调优思路:水平分片。水平分片如果你正在面临的不是因为label导致的高基数问题,而是因为监控规模的急剧扩张导致需要被监控的instance非常庞大时,可以通过Prometheus的hashmodrelabelaction来优化性能。通过这种办法,面对成千上万的instance时,一台Prometheus只需要监控其中的所有各种各样实
开源项目推荐O11ytoolkitO11ytoolkit是一个工具集,用来维护、调试和增强你的可观测性系统,改善我们日常对指标、日志和链路追踪的使用体验。例如oy-scrape-jitter就是用来解决Prometheus抓取的指标时间戳间隔不一致的问题。Prometheus使用的是delta-of-delta编码和时间戳XOR压缩技术,这就意味着当指标抓取的时间间隔完全一致时,一个时间戳存储到TSDB中只需占用一个比特(bit),可以大大节省磁盘的空间。虽然从理论上来说Promtheus每次抓取指标的间隔应该是一样的,但实际上会出现抖动的情况,抓取间隔并不是完全一致的,因此会浪费磁盘空间。o
开源项目推荐O11ytoolkitO11ytoolkit是一个工具集,用来维护、调试和增强你的可观测性系统,改善我们日常对指标、日志和链路追踪的使用体验。例如oy-scrape-jitter就是用来解决Prometheus抓取的指标时间戳间隔不一致的问题。Prometheus使用的是delta-of-delta编码和时间戳XOR压缩技术,这就意味着当指标抓取的时间间隔完全一致时,一个时间戳存储到TSDB中只需占用一个比特(bit),可以大大节省磁盘的空间。虽然从理论上来说Promtheus每次抓取指标的间隔应该是一样的,但实际上会出现抖动的情况,抓取间隔并不是完全一致的,因此会浪费磁盘空间。o
前言随着Prometheus监控的组件、数量、指标越来越多,Prometheus对计算性能的要求会越来越高,存储占用也会越来越多。在这种情况下,要优化Prometheus性能,优化存储占用.第一时间想到的可能是各种Prometheus的兼容存储方案,如Thanos或VM、Mimir等。但是实际上虽然集中存储、长期存储、存储降采样及存储压缩可以一定程度解决相关问题,但是治标不治本。真正的本,还是在于指标量(series)过于庞大。治本之法,应该是减少指标量。有2种办法:Prometheus性能调优-解决高基数问题根据实际使用情况,只保留(keep)展示(GrafanaDashboards)和告警