Elasticsearch GC优化实践

Mumunu- 2023-05-18 原文

近期业务查询线上ES集群出现频繁超时告警，尤其是早晨某个时间点固定的报一波超时，从调用链监控上很难看出是什么业务行为导致的。

初步猜测

查看Grafana上Elasticsaerch的基础监控，发现业务告警与ES的Old GC（老年代GC）卡顿时间基本吻合：

同时注意到，Old区的内存持续增长，不到1小时就会将Old区填满，经过Old GC几乎全部可以回收掉：

猜测：

是什么导致Old区快速增长？可能是内存分配速率过高导致过早晋升？可能是分配很大的对象？
为什么Old GC这么慢？ES卡顿大概率与它有关，早晨时间固定发生可能与业务某种行为有关。

查看GC配置

所以先用JVM工具从外围查看一下GC配置与大概情况。

jmap查看ES堆情况：

MaxHeapSize：整个堆31GB。
MaxNewSize：Young区只有1GB。
OldSize：Old区有30GB。
NewRatio：取值2表示Young区应该占整个堆的1/3，应该是10GB才对，而实际才1GB，这非常奇怪。

我们期望的默认行为是Young=10GB，Old=20GB才对，为什么变成了1GB和30GB这样？

查看了一下JVM最终的启动参数，竟然真的自行推断Young区只占1GB空间，难道是JVM的BUG？

把剩余的GC参数谷歌了一下，果然发现有人测试过JDK8的-XX:+UseConcMarkSweepGC会导致NewRatio参数失效，原因不明！

这么小的Young区肯定会导致频繁Young GC （通过jstat -gc观察YGC每秒1~2次） ，对ES性能肯定没有好处，虽然和Old GC慢没啥直接关系，但也必须先修复一下再说了，通过-Xmn直接指定Young区10GB即可：

重启ES观察到Young区大小正确，观察jstat -gc发现Young GC频率显著下降了6倍。

再次观察grafana，发现YGC频率的确下降（YGC之间有间隔了）：

Old区仍旧保持高增速：

但是因为Young区从1GB调到10GB了，所以每次YGC对JVM heap的收缩振幅会更明显，图形上出现明显的起落，但整个JVM heap持续走高的势头没有改变，因为对象仍旧在快速晋升到Old区，直到Old区填满后一次Old GC再大幅回落。

开启GC日志

接下来要分析Old区快速增长的原因，另外要看一下为什么Old GC会卡顿1秒，能否优化？

配置开启GC日志，重启ES：

为了判断是不是存在很多”中生命期”的对象存在而导致频繁晋升到Old区，所以需要打开-XX:MaxTenuringThreshold=15参数，令Young区晋升条件提高为15代YGC，以便观察Young区的对象年龄分布。

一开始我采用默认参数是6代晋升，这是当时的截图：

图中观察到1~6岁的对象都有，每一代就几十MB的空间占用，我们知道YGC后6岁的就会进入Old区，1~5岁的就会都涨1岁，所以我怀疑就是每次YGC会导致第6代几十MB的”中生命期”对象晋升到Old区，大概算了一下这个速度的确和Old GC的周期接近，看样大概率是这个原因导致Old区增长的。

如果我调高晋升年龄到15代，有可能活到10岁的”中生命期”对象就会最终在YGC被回收掉，可能会减缓Old区的增长速度，抱着这个想法我才将XX:MaxTenuringThreshold调到了15，想给”中生命期”对象多一些机会被YGC回收掉。

但实际情况是15代都均匀的分布着对象，可见”中生命期”的对象活的比想象的要久，能熬过15代YGC还不释放，既然现实情况就是有很多”中生命期”对象存在，那减缓Old区增长的想法是比较难实现了， 索性继续研究一下为什么Old GC那么卡的问题吧 。

优化Old GC速度

根据打印到磁盘上gc日志，可以深入分析一下CMS Old GC的流程耗时在哪里，我们应该重点关注会导致STW（stop the world）的阶段耗时。

CMS垃圾回收算法是Old区的GC算法，它的开始以这样的日志标识：

2022-03-12T13:19:54.273+0800: 96253.129: [GC (CMS Initial Mark) [1 CMS-initial-mark: 23554181K(31398336K)] 23611096K(32395136K), 0.0063801 secs] [Times: user=0.01 sys=0.00, real=0.01 secs]

初始化标记阶段，只会STW一丢丢的时间，基本可以忽略。

整个CMS的经历如下阶段：

在Remark阶段会有明显的STW，知乎上是这样描述的：

因为Old GC全流程比较漫长，期间Young区会快速填充，等到Remark阶段要扫全堆的时候Young区也填满了很多对象，此时强制配置一波YGC（本身又很快），应该可以减少Remark的STW耗时。

目前观察到Remark阶段耗时：

STW长达0.8秒，的确很惨，我们加上这个选项：

-XX:+CMSScavengeBeforeRemark

添加上述配置后，可以看到Remark阶段时间STW耗时缩短了7倍左右：

优化效果

红色为原线上配置的对照实例，其他机器均已生效新配置：

可见，GC频率与耗时均明显下降，新的Old GC耗时已经降低到原先的Young GC耗时的水平，早晨超时报警的情况也消失了。

Elasticsearch 优化 xff xff0c xff0 jvm java

有关Elasticsearch GC优化实践的更多相关文章

ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2
很好奇，就使用rubyonrails自动化单元测试而言，你们正在做什么？您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您？git中的预提交Hook？只是手动调用？我完全理解测试，但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的，并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您？最佳答案不确定您到底想听什么，但是有几个级别的自动代码库控制:在处理某项功能时，您可以使用类似autotest的内容获得关于哪些有效，哪些无效的即时反馈。要确保您的提
叮咚买菜基于 Apache Doris 统一 OLAP 引擎的应用实践 - 2
导读：随着叮咚买菜业务的发展，不同的业务场景对数据分析提出了不同的需求，他们希望引入一款实时OLAP数据库，构建一个灵活的多维实时查询和分析的平台，统一数据的接入和查询方案，解决各业务线对数据高效实时查询和精细化运营的需求。经过调研选型，最终引入ApacheDoris作为最终的OLAP分析引擎，Doris作为核心的OLAP引擎支持复杂地分析操作、提供多维的数据视图，在叮咚买菜数十个业务场景中广泛应用。作者｜叮咚买菜资深数据工程师韩青叮咚买菜创立于2017年5月，是一家专注美好食物的创业公司。叮咚买菜专注吃的事业，为满足更多人“想吃什么”而努力，通过美好食材的供应、美好滋味的开发以及美食品牌的孵
ruby-on-rails - Rails 中同一个类的多个关联的最佳实践？ - 2
我认为我的问题最好用一个例子来描述。假设我有一个名为“Thing”的简单模型，它有一些简单数据类型的属性。像...Thing-foo:string-goo:string-bar:int这并不难。数据库表将包含具有这三个属性的三列，我可以使用@thing.foo或@thing.bar之类的东西访问它们。但我要解决的问题是当“foo”或“goo”不再包含在简单数据类型中时会发生什么？假设foo和goo代表相同类型的对象。也就是说，它们都是“Whazit”的实例，只是数据不同。所以现在事情可能看起来像这样......Thing-bar:int但是现在有一个新的模型叫做“Whazit”，看起来
ruby-on-rails - 向 Rails 3 添加 Ruby 扩展方法的最佳实践？ - 2
我有一个要在我的Rails3项目中使用的数组扩展方法。它应该住在哪里？我有一个应用程序/类，我最初把它放在(array_extensions.rb)中，在我的config/application.rb中我加载路径:config.autoload_paths+=%W(#{Rails.root}/应用程序/类)。但是，当我转到railsconsole时，未加载扩展。是否有一个预定义的位置可以放置我的Rails3扩展方法？或者，一种预先定义的方式来添加它们？我知道Rails有自己的数组扩展方法。我应该将我的添加到active_support/core_ext/array/conversion
Ruby 最佳实践 : working with classes - 2
参见下面的示例，我想最好使用第二种方法，但第一种也可以。哪种方法最好，使用另一种的后果是什么？classTestdefstartp"started"endtest=Test.newtest.startendclassTest2defstartp"started"endendtest2=Test2.newtest2.start 最佳答案我肯定会说第二种变体更有意义。第一个不会导致错误，但对象实例化完全过时且毫无意义。外部变量在类的范围内不可见:var="string"classAvar=A.newendputsvar#=>strin
ruby - 存储外部 API 的密码 - 最佳实践 - 2
如果我构建了一个应用程序来访问来自Gmail、Twitter和Facebook的一些数据，并且我希望用户只需输入一次他们的身份验证信息，并且在几天或几周后重置，那会怎样是在Ruby中动态执行此操作的最佳方法吗？我看到很多人只是拥有他们客户/用户凭证的配置文件，如下所示:gmail_account:username:myClientpassword:myClientsPassword这看起来a)非常不安全，b)如果我想为成千上万的用户存储此类信息，它就无法工作。推荐的方法是什么？我希望能够在这些服务之上构建一个界面，因此每次用户进行交易时都必须输入凭据是不可行的。
ruby-on-rails - 使用设计身份验证的 API 访问 - 最佳实践？ - 2
我正在使用Devise在Rails应用程序中，并希望通过API公开一些模型数据，但应该像应用程序一样限制对API的访问。$curlhttp://myapp.com/api/v1/sales/7.json{"error":"Youneedtosigninorsignupbeforecontinuing."}很明显。在这种情况下是否有访问API的最佳实践？我更喜欢一步验证+获取数据，但这只是为了让客户的工作更轻松。他们将使用JQuery在客户端提取数据。感谢您提供任何信息!凡妮莎最佳答案我建议您按照以下帖子中的选项2:使用APIke
ruby-on-rails - 在多个页面上使用相同表单的 Rails 最佳实践 - 2
我正在开发一个Rails2.3.1网站。在整个网站中，我需要一个用于在各种页面(主页、创建帖子页面、帖子列表页面、评论列表页面等)上创建帖子的表单——只要说这个表单需要在由各种Controller)。这些页面中的每一个都显示在相应的Controller/操作中检索到的各种其他信息。例如，主页列出了最新的10篇文章、从数据库中提取的内容等。因此，我已将帖子创建表单移动到它自己的部分中，并将该部分包含在所有必要的页面中。请注意，部分POST中的表单到/questions(路由到PostsController::create——这是默认的Rails行为)。我遇到的问题是当Posts表单没有正
Ruby 缺少常量表达式优化？ - 2
我希望Ruby的解析器会进行这种微不足道的优化，但似乎并没有(谈到YARV实现，Ruby1.9.x、2.0.0):require'benchmark'deffib1a,b=0,1whileb由于这两种方法除了在第二种方法中使用预定义常量而不是常量表达式外是相同的，因此Ruby解释器似乎在每个循环中一次又一次地计算幂常数。是否有一些Material说明为什么Ruby根本不进行这种基本优化或只在某些特定情况下进行？最佳答案很抱歉给出了另一个答案，但我不想删除或编辑我之前的答案，因为它下面有有趣的讨论。正如JörgWMittag所说，
ruby-on-rails - 优化读取数据库和写入csv文件 - 2
我正在尝试从数据库中读取大量单元格(超过100.000个)并将它们写入VPSUbuntu服务器上的csv文件。碰巧服务器没有足够的内存。我正在考虑一次读取5000行并将它们写入文件，然后再读取5000行，等等。我应该如何重构我当前的代码以使内存不会被完全消耗？这是我的代码:defwrite_rows(emails)File.open(file_path,"w+")do|f|f该函数由sidekiqworker调用:write_rows(user.emails)感谢您的帮助! 最佳答案这里的问题是，当您调用emails.each时，