草庐IT

云原生爱好者周刊:揪出 Prometheus 中时间戳抖动

kubesphere 2023-03-28 原文

开源项目推荐

O11y toolkit

O11y toolkit 是一个工具集,用来维护、调试和增强你的可观测性系统,改善我们日常对指标、日志和链路追踪的使用体验。例如 oy-scrape-jitter 就是用来解决 Prometheus 抓取的指标时间戳间隔不一致的问题。Prometheus 使用的是 delta-of-delta 编码和时间戳 XOR 压缩技术,这就意味着当指标抓取的时间间隔完全一致时,一个时间戳存储到 TSDB 中只需占用一个比特(bit),可以大大节省磁盘的空间。虽然从理论上来说 Promtheus 每次抓取指标的间隔应该是一样的,但实际上会出现抖动的情况,抓取间隔并不是完全一致的,因此会浪费磁盘空间。oy-scrape-jitter 可以找出那些抓取间隔发生抖动的指标,例如:

$ ./oy-scrape-jitter --prometheus.url=https://prometheus.demo.do.prometheus.io/ --plot.file=jitter.png
level=info metric="up{env=\"demo\", instance=\"demo.do.prometheus.io:9093\", job=\"alertmanager\"}" aligned=239 unaligned=0 max_ms=0 pc=100.00%
level=info metric="up{env=\"demo\", instance=\"demo.do.prometheus.io:9100\", job=\"node\"}" aligned=233 unaligned=6 max_ms=23 pc=97.49%
level=info metric="up{instance=\"demo.do.prometheus.io:3000\", job=\"grafana\"}" aligned=237 unaligned=2 max_ms=14 pc=99.16%
level=info metric="up{instance=\"demo.do.prometheus.io:8996\", job=\"random\"}" aligned=179 unaligned=60 max_ms=2 pc=74.90%
level=info metric="up{instance=\"demo.do.prometheus.io:8997\", job=\"random\"}" aligned=239 unaligned=0 max_ms=0 pc=100.00%
level=info metric="up{instance=\"demo.do.prometheus.io:8998\", job=\"random\"}" aligned=237 unaligned=2 max_ms=3 pc=99.16%
level=info metric="up{instance=\"demo.do.prometheus.io:8999\", job=\"random\"}" aligned=237 unaligned=2 max_ms=4 pc=99.16%
level=info metric="up{instance=\"demo.do.prometheus.io:9090\", job=\"prometheus\"}" aligned=237 unaligned=2 max_ms=8 pc=99.16%
level=info metric="up{instance=\"http://localhost:9100\", job=\"blackbox\"}" aligned=233 unaligned=6 max_ms=2 pc=97.49%
level=info metric="up{instance=\"localhost:2019\", job=\"caddy\"}" aligned=239 unaligned=0 max_ms=0 pc=100.00%
level=info aligned_targets=3 unaligned_targets=7 max_ms=23

输出结果里有一条是这样的:

level=info metric="up{instance=\"demo.do.prometheus.io:8996\", job=\"random\"}" aligned=179 unaligned=60 max_ms=2 pc=74.90%

这表示指标 {instance="demo.do.prometheus.io:8996", job="random"} 有超过 25% 的样本抓取时间间隔不一致。

Korb

Korb 可以用来在 Kubernetes 集群中将 PVC 迁移到不同的 StorageClasses 中。例如:

$ ./korb --new-pvc-storage-class ontap-ssd redis-data-redis-master-0
DEBU[0000] Created client from kubeconfig                component=migrator kubeconfig=/home/jens/.kube/config
DEBU[0000] Got current namespace                         component=migrator namespace=prod-beryju-org
DEBU[0000] Got Source PVC                                component=migrator name=redis-data-redis-master-0 uid=e4b5476f-b965-4e81-bfee-d7cbbf4f6317
DEBU[0000] No new Name given, using old name             component=migrator
DEBU[0000] Compatible Strategies:                        component=migrator
DEBU[0000] Copy the PVC to the new Storage class and with new size and a new name, delete the old PVC, and copy it back to the old name.  component=migrator
DEBU[0000] Only one compatible strategy, running         component=migrator
DEBU[0000] Set timeout from PVC size                     component=strategy strategy=copy-twice-name timeout=8m0s
WARN[0000] This strategy assumes you've stopped all pods accessing this data.  component=strategy strategy=copy-twice-name
DEBU[0000] creating temporary PVC                        component=strategy stage=1 strategy=copy-twice-name
DEBU[0002] starting mover job                            component=strategy stage=2 strategy=copy-twice-name
DEBU[0004] Pod not in correct state yet                  component=mover-job phase=Pending
DEBU[0006] Pod not in correct state yet                  component=mover-job phase=Pending
[...]
[mover logs]: sending incremental file list
[mover logs]: ./
[mover logs]: appendonly.aof
              0 100%    0.00kB/s    0:00:00 (xfr#1, to-chk=1/3)
[mover logs]: dump.rdb
            175 100%    0.00kB/s    0:00:00 (xfr#2, to-chk=0/3)
DEBU[0022] Cleaning up successful job                    component=mover-job
DEBU[0022] deleting original PVC                         component=strategy stage=3 strategy=copy-twice-name
DEBU[0024] creating final destination PVC                component=strategy stage=4 strategy=copy-twice-name
DEBU[0024] starting mover job to final PVC               component=strategy stage=5 strategy=copy-twice-name
DEBU[0026] Pod not in correct state yet                  component=mover-job phase=Pending
DEBU[0028] Pod not in correct state yet                  component=mover-job phase=Pending
[...]
[mover logs]: sending incremental file list
[mover logs]: ./
[mover logs]: appendonly.aof
              0 100%    0.00kB/s    0:00:00 (xfr#1, to-chk=1/3)
[mover logs]: dump.rdb
            175 100%    0.00kB/s    0:00:00 (xfr#2, to-chk=0/3)
DEBU[0048] Cleaning up successful job                    component=mover-job
DEBU[0048] deleting temporary PVC                        component=strategy stage=6 strategy=copy-twice-name
INFO[0050] And we're done                                component=strategy strategy=copy-twice-name
INFO[0050] Cleaning up...                                component=strategy strategy=copy-twice-name

websocat

websocat 与 curl 类似,但专门为 Websockets 而设计,更便于测试 Websockets。例如:

A$ websocat -s 1234
Listening on ws://127.0.0.1:1234/
ABC
123

B$ websocat ws://127.0.0.1:1234/
ABC
123

《站点可靠性工作手册》中文版

本书是 Google SRE 工作手册的续集,偏实践,这是本书的中文翻译。

文章推荐

快速上手 OpenFunction Node.js 异步函数服务开发

近日,“OpenFunction 顺利通过了云原生计算基金会 CNCF 技术监督委员会(TOC)的投票,正式进入 CNCF 沙箱(Sandbox)托管”。作为 OpenFunction 社区的一份子,非常期待能有更多开发者和合作伙伴参与到项目中来,共同建设和发展社区,“使 Serverless 函数与应用运行更简单”!同时,作为 Node.js 函数框架(Function Framework)目前的 Maintainer 之一,也想借此机会和大家分享一下 Node.js 函数框架最近的研发进展,特别是在 0.4.1 版本中已经实现的对于异步函数的支持。

本文将从以下几方面来介绍 Node.js 函数框架目前的研发进展和之后的工作展望。

国星宇航 SaaS 系统容器化最佳实践

国星宇航是一家 Al 卫星互联网科技公司,期望基于 K8s 搭建 PaaS 云计算基础平台,多租户管理使用资源,集成 CI/CD、支持灵活扩容与升级集群,构建企业级一站式 DevOps 架构,提高集群资源可监控性,可溯源操作审计。本文介绍了国星宇航如何使用 KubeSphere 来实现这个目标。

使用 Cilium Service Mesh 实现新一代的双向认证

双向认证(Mutual Authentication)一直是安全的基石,我们日常使用的 SSH、mTLS 或 IPsec 等协议和技术都依赖于双向认证,云原生的世界也不例外,我们希望使用强大的双向认证来确保 Kubernetes 和整个云原生基础设施中服务之间的相互通信。

这篇文章研究了 Cilium 和 Cilium Service Mesh 是如何利用 eBPF 为服务提供一种新的基于身份的双向认证的方式,其高性能的数据平面可以支持任何网络协议,而不需要对应用程序进行更改,也无需注入 Sidecar。

云原生动态

存储容量跟踪在 Kubernetes 1.24 中达到通用标准

Kubernetes 1.24 版本将存储容量跟踪作为一个普遍可用的功能。

存储容量跟踪允许 CSI 驱动发布关于剩余容量的信息。然后,当 Pod 具有仍需要配置的卷时,kube-scheduler 使用该信息为 Pod 选择合适的节点。

如果没有这些信息,Pod 可能会被卡住而无法被安排到合适的节点上,因为 kube-scheduler 不得不盲目选择而且最终总是选择一个无法配置卷的节点,因为由 CSI 驱动程序管理的底层存储系统确实如此没有足够的容量。

因为 CSI 驱动程序发布的存储容量信息在以后可能不再是最新的时候被使用,所以仍然可能会发生一个节点被选中而最终无法正常工作。卷配置通过通知调度程序它需要使用不同的节点重试来从中恢复。

KubeKey 2.1.0 发布,增强 K8s 离线交付体验

2022 年 5 月 6 日,KubeKey 2.1.0 正式发布,这是 KubeKey 的第 8 个正式版本。该版本增强了离线部署能力和交付体验,同时支持“一云多芯”,即同一个 K8s 集群中可以同时包含 ARM64 节点和 AMD64 节点。

KubeKey v2.1.0 不兼容 KubeKey v2.0.0 制作的制品,请使用 KubeKey v2.1.0 重新导出 KubeKey 制品。这是因为 KubeKey v2.1.0 优化了制品的存储结构。目前制品采用 OCI 标准对镜像进行拉取和归档保存,实现了复用基础镜像层,其存储空间占用可降低近一半。

Argo CD 发布 v2.4 RC 版本

日前,Argo CD 发布了第一个 v2.4 候选版本。该版本有以下变化:

  • Argo CD 提供了一个 web 用户界面,作为一个超级强大的 Kubernetes 仪表板,帮助开发人员更好地了解他们的应用程序;
  • 引入了额外的访问控制设置,以控制对 Kubernetes Pod 日志和新的 Web 终端功能的访问;
  • v2.4 版本引入了 OpenTelemery 追踪集成,为 Argo CD 操作器(operator)提供了更多可见性;
  • 支持的架构列表已经扩展,现在包括 IBM Z(s390x)和 PowerPC(ppc64le)。从 v2.4 版本开始,官方 quay.io 仓库将提供 amd64、arm64、ppc64le 和 s390x 架构的镜像。

有关更多详细信息和安装说明,请查看发布说明升级说明

Docker 提供 Docker Extensions,适用于 Linux 的 Docker Desktop

Docker 在其产品组合中添加了新产品,以帮助开发人员查找工具并将其添加到 Docker Desktop,并协助开发人员在基于 Linux 的系统上工作。

在 DockerCon 2022 虚拟会议上,Docker 宣布了 Docker Extensions 和适用于 Linux 的 Docker Desktop。由多个合作伙伴构建的 Docker 扩展可帮助开发人员免去安装、配置和管理新工具的繁琐工作。

为了提高开发人员的工作效率,Docker Desktop for Linux 预装了 Docker Compose、Docker CLI 和 Kubernetes 等工具,简化了该工具的安装和更新过程。

2022 年欧洲 KubeCon + CloudNativeCon 即将开启

2022 年 5 月 16 日至 5 月 20 日,KubeCon + CloudNativeCon Europe 2022 将在西班牙的瓦伦西亚,线下+线上同步召开!

此次盛会,得到了国内外众多 IT 巨头的鼎力支持,汇聚了全球最活跃的开源云原生社区、最先进的技术代表以及最优秀的行业落地实践!

OpenFunction 的创始人霍秉杰将于北京时间 5 月 18 日 21:25-22:00 带来主题分享:用云原生 Serverless 技术赋能自动驾驶。欢迎大家关注!

本文由博客一文多发平台 OpenWrite 发布!

有关云原生爱好者周刊:揪出 Prometheus 中时间戳抖动的更多相关文章

  1. ruby-on-rails - Ruby 检查日期时间是否为 iso8601 并保存 - 2

    我需要检查DateTime是否采用有效的ISO8601格式。喜欢:#iso8601?我检查了ruby​​是否有特定方法,但没有找到。目前我正在使用date.iso8601==date来检查这个。有什么好的方法吗?编辑解释我的环境,并改变问题的范围。因此,我的项目将使用jsapiFullCalendar,这就是我需要iso8601字符串格式的原因。我想知道更好或正确的方法是什么,以正确的格式将日期保存在数据库中,或者让ActiveRecord完成它们的工作并在我需要时间信息时对其进行操作。 最佳答案 我不太明白你的问题。我假设您想检查

  2. ruby-on-rails - 将 Ruby 中的日期/时间格式化为 YYYY-MM-DD HH :MM:SS - 2

    这个问题在这里已经有了答案:Railsformattingdate(4个答案)关闭4年前。我想格式化Time.Now函数以显示YYYY-MM-DDHH:MM:SS而不是:“2018-03-0909:47:19+0000”该函数需要放在时间中.现在功能。require‘roo’require‘roo-xls’require‘byebug’file_name=ARGV.first||“Template.xlsx”excel_file=Roo::Spreadsheet.open(“./#{file_name}“,extension::xlsx)xml=Nokogiri::XML::Build

  3. ruby - 查找字符串中的内容类型(数字、日期、时间、字符串等) - 2

    我正在尝试解析一个CSV文件并使用SQL命令自动为其创建一个表。CSV中的第一行给出了列标题。但我需要推断每个列的类型。Ruby中是否有任何函数可以找到每个字段中内容的类型。例如,CSV行:"12012","Test","1233.22","12:21:22","10/10/2009"应该产生像这样的类型['integer','string','float','time','date']谢谢! 最佳答案 require'time'defto_something(str)if(num=Integer(str)rescueFloat(s

  4. sql - 查询忽略时间戳日期的时间范围 - 2

    我正在尝试查询我的Rails数据库(Postgres)中的购买表,我想查询时间范围。例如,我想知道在所有日期的下午2点到3点之间进行了多少次购买。此表中有一个created_at列,但我不知道如何在不搜索特定日期的情况下完成此操作。我试过:Purchases.where("created_atBETWEEN?and?",Time.now-1.hour,Time.now)但这最终只会搜索今天与那些时间的日期。 最佳答案 您需要使用PostgreSQL'sdate_part/extractfunction从created_at中提取小时

  5. ruby - 在没有基准或时间的情况下用 Ruby 测量用户时间或系统时间 - 2

    因为我现在正在做一些时间测量,我想知道是否可以在不使用Benchmark类或命令行实用程序time的情况下测量用户时间或系统时间。使用Time类只显示挂钟时间,而不显示系统和用户时间,但是我正在寻找具有相同灵active的解决方案,例如time=TimeUtility.now#somecodeuser,system,real=TimeUtility.now-time原因是我有点不喜欢Benchmark,因为它不能只返回数字(编辑:我错了-它可以。请参阅下面的答案。)。当然,我可以解析输出,但感觉不对。*NIX系统的time实用程序也应该可以解决我的问题,但我想知道是否已经在Ruby中实

  6. ruby - 以毫秒为单位获取当前系统时间 - 2

    在Ruby中,以毫秒为单位获取自纪元(1970)以来的当前系统时间的正确方法是什么?我试过了Time.now.to_i,好像不是我想要的结果。我需要结果显示毫秒并且使用long类型,而不是float或double。 最佳答案 (Time.now.to_f*1000).to_iTime.now.to_f显示包含十进制数字的时间。要获得毫秒数,只需将时间乘以1000。 关于ruby-以毫秒为单位获取当前系统时间,我们在StackOverflow上找到一个类似的问题:

  7. ruby-on-rails - Ruby on Rails - 需要在每周的特定时间将消息发送到电子邮件 - 2

    我想知道我应该如何着手这个项目。我需要每周向人们发送一次电子邮件。但是,这必须在每周的特定时间自动生成并发送。编码有多难?我需要知道是否有任何书籍可以提供帮助,或者你们中的任何人是否可以指导我。它必须使用ruby​​onrails进行编程。因此有一个网络服务和数据库集成。干杯 最佳答案 为什么这么复杂?您只需安排工作。您可以使用Delayed::Job例如。Delayed::Job让您可以使用run_at符号在特定时间安排作业,如下所示:Delayed::Job.enqueue(SendEmailJob.new(...),:run_

  8. ruby - rspec 显示负时间 - 2

    我在ruby​​1.9.3p0上运行rails3.2.1和rspec2.8.1,在运行我的测试时它显示负时间值。这很烦人,因为我正在尝试优化我的测试。Running:spec/models/transaction_spec.rb................................................Finishedin-7603162.49414seconds我已经尝试将rspec更新到2.9.0,但这没有帮助。 最佳答案 你在使用timecopgem吗?确保在卡住后Timecop.return。或者你在某处

  9. ruby - 将 Logstash 中的时间戳时区转换为输出索引名称 - 2

    在我的场景中,Logstash收到的系统日志行的“时间戳”是UTC,我们在Elasticsearch输出中使用事件“时间戳”:output{elasticsearch{embedded=>falsehost=>localhostport=>9200protocol=>httpcluster=>'elasticsearch'index=>"syslog-%{+YYYY.MM.dd}"}}我的问题是,在UTC午夜,Logstash在外时区(GMT-4=>America/Montreal)结束前将日志发送到不同的索引,并且索引在20小时(晚上8点)之后没有日志,因为“时间戳”是UTC。我们已

  10. ruby-on-rails - 获取当前时间的单元测试代码 - 2

    为获取当前时间的代码编写单元测试的最佳方法是什么?例如,某些对象可能仅在工作日创建,其他对象在检查执行某些操作的权限时会考虑当前时间等。我想我应该模拟Date.today和Time.now。这是正确的做法吗?更新:两种解决方案(a)Time.is和(b)Time.stubs(:now).returns(t)都有效。(a)是非常好的方法,但(b)解决方案将与其他测试代码更加一致。在此question作者要求一个通用的解决方案。对于Ruby,在我的选项中,上述两个解决方案是simpler因此比提取获取当前日期/时间的代码更好。顺便说一句,我建议使用Chronic获得所需的时间,例如requ

随机推荐