草庐IT

ES堆占用高问题分析与解决方案

水的精神 2023-12-16 原文

经常发生节点OOM的问题。

排查问题产生的原因,以及解决方案。

如何提高堆的利用率?

目前线上OOM节点挂的事情经常发生。

关于堆的问题分析,我们应该从这几个方向去分析:堆里都装着什么?能不能减少。 是什么原因导致OOM的?什么类型的请求。

发生oom的时候堆内存快照分析

ES千亿级检索实战 堆OOM 问题深度分析_水的精神的博客-CSDN博客

解决方案

业务上的不正当使用导致的堆占用高

首先排除业务上的使用问题。不合理的请求。

例如:很多 from 0 size 10000的请求。这在小规模索引下,没有什么问题,一旦命中索引数超过2000,就会非常的糟糕。在大索引(分片数非常多)的情况下,要控制单个请求取回的数据。size最好不要超过1000,甚至更小。同是更应该注意from的值,尽可能也控制在1000以内。否则是一件非常危险的事情。它会非常的花费堆资源。如果真的有需求出很多数据,可以考虑滚动查询。

例如:query_string中的检索词,有500多个,这个会很耗时!一直占用堆空间,不能释放。

设置超时时间,两分钟的超时时间,如果出不来数据,就不再返回数据。

哪些需求可以离线计算?哪些需求从es角度触发必须离线?让es只出必须对实时性要求高的需求,其它的聚合分析,可以考虑大数据平台的离线计算。

如果有条件,就扩集群

偶尔的OOM还好,但是频繁的OOM已经不正常了。在排除掉业务上的不正当的需求以后,假如堆还是有很大的压力。这个时候已经需要加资源了。我们一定要清楚,我们的集群当前在保证检索性能的前提下的处理能力的极限。因为集群的每个节点能够承载能力是有限的,堆的承载能力也是有限的。我们在设计上要保证集群中的数据流动起来,例如只存储三个月的数据,每天有数据进来,也有数据流出集群。这样保证集群真的只存三个月的数据。

集群的处理能力总是有限的,应该对进入es中的请求,有个准确的评估。然后适当的去做限流。

以上两个思路是防止集群越运行越慢的方法。

如果没有条件扩展,可以调参

这是一个迫不得己的操作,无非是在拆东墙补西墙!换句话说,也算资源充分利用吧。

可以调整es堆内存分配!

指针压缩失效临界值

目前我们线上的机器是每个节点给31G内存。这肯定不是最大的,看到腾讯的给es31.8G,网上还要其它人说临界值是32g - 1M要测一下临界值是多少。修改线上配置。

在70这台测试机器上,测试的临界值是 31.96G,我们可以给到临界值,可以提升将近1G的堆空间。这个多出来将近1G的空间。

测试方法参考官方文档:

堆内存:大小和交换 | Elasticsearch: 权威指南 | Elastic

indexBufferPool

默认是10%堆空间,写满flash。能不能调小一些,多少是合理的,不影响线上的写入。调小可能写入会降速。要进行具体的测试。如果堆31G,百分之十也有3.1G了。假如调成百分之五,那么又节省出来1.5G堆空间。

queryCache

默认是10%堆空间,用作查询缓存。因为很多请求,都是filter包起来的,这部分很容易会被缓存起来,这部分,能不能不缓存。我们必须做有效的缓存,否则很多不生效的,会让缓存效果更差。

fieldDataMemory

默认是30%的堆空间,可以调小一点。我们生产环境因为堆空间不足,给了10%。

这部分是用作,keyword类型的聚合,它会存全局序数。它还会被用作sort。

从使用方面,我们应该避免无效的sort。

段合并减少 segmentMemory的空间

这部分效果不会太大。因为目前来看,这部分占用不是很大。

在介绍了这些内存以后,可以通过下边的参数来查看堆中都有什么

GET _cat/nodes?v&h=id,ip,port,r,ramPercent,ramCurrent,heapMax,heapCurrent,fielddataMemory,queryCacheMemory,requestCacheMemory,segmentsMemory

节点角色规划

以下是协调节点的JVM的使用情况。在分析OOM的时候,发现在错误日志中有部分的coordination的错误

当前节点的角色不带协调节点,但是带了远程节点的角色。在执行跨集群的时候,此节点会充当协调节点。

在OOM以后看到最多的日志就是的下边图片上的warn级别的日志。

[o.e.t.InboundHandler     ] [10.99.100.10-2] handling inbound transport message [InboundMessage{Header{2912}{7.11.1}{38434969561}{true}{false}{false}{false}{indices:data/read/search[can_match]}}] took [6606ms] which is above the warn threshold of [5000ms]

然后分析,来看,InboundHandler都是用来接受数据的,再根据当前节点的角色不带协调节点角色,只带着remote节点角色。

找到和报错信息相关的es源码,看打印出来的都是什么内容:

协调角色节点的堆的使用情况,基本上只正常的。我认为可以通过es 将数据节点中的remote角色可以都给协调节点。来分担数据节点的堆的压力。

源码级别的修改,精准分析堆内存的占用, 调整堆占用,部分挪出堆

下边是腾讯在2020年做的,将FST挪出了堆,目的为了提高单个节点能够承载的数据量。这项优化,在es6.8及以下版本是非常有效的。但是到了Es 7.X版本,已经默认把FST从堆内挪到堆外了!

腾讯万亿级 Elasticsearch 内存效率提升技术解密 - 知乎

这个不适用我们,我们的方向大概是将缓存挪出堆。

有关ES堆占用高问题分析与解决方案的更多相关文章

  1. ruby - 在 64 位 Snow Leopard 上使用 rvm、postgres 9.0、ruby 1.9.2-p136 安装 pg gem 时出现问题 - 2

    我想为Heroku构建一个Rails3应用程序。他们使用Postgres作为他们的数据库,所以我通过MacPorts安装了postgres9.0。现在我需要一个postgresgem并且共识是出于性能原因你想要pggem。但是我对我得到的错误感到非常困惑当我尝试在rvm下通过geminstall安装pg时。我已经非常明确地指定了所有postgres目录的位置可以找到但仍然无法完成安装:$envARCHFLAGS='-archx86_64'geminstallpg--\--with-pg-config=/opt/local/var/db/postgresql90/defaultdb/po

  2. ruby - 通过 rvm 升级 ruby​​gems 的问题 - 2

    尝试通过RVM将RubyGems升级到版本1.8.10并出现此错误:$rvmrubygemslatestRemovingoldRubygemsfiles...Installingrubygems-1.8.10forruby-1.9.2-p180...ERROR:Errorrunning'GEM_PATH="/Users/foo/.rvm/gems/ruby-1.9.2-p180:/Users/foo/.rvm/gems/ruby-1.9.2-p180@global:/Users/foo/.rvm/gems/ruby-1.9.2-p180:/Users/foo/.rvm/gems/rub

  3. ruby - 在 jRuby 中使用 'fork' 生成进程的替代方案? - 2

    在MRIRuby中我可以这样做:deftransferinternal_server=self.init_serverpid=forkdointernal_server.runend#Maketheserverprocessrunindependently.Process.detach(pid)internal_client=self.init_client#Dootherstuffwithconnectingtointernal_server...internal_client.post('somedata')ensure#KillserverProcess.kill('KILL',

  4. ruby - 通过 RVM (OSX Mountain Lion) 安装 Ruby 2.0.0-p247 时遇到问题 - 2

    我的最终目标是安装当前版本的RubyonRails。我在OSXMountainLion上运行。到目前为止,这是我的过程:已安装的RVM$\curl-Lhttps://get.rvm.io|bash-sstable检查已知(我假设已批准)安装$rvmlistknown我看到当前的稳定版本可用[ruby-]2.0.0[-p247]输入命令安装$rvminstall2.0.0-p247注意:我也试过这些安装命令$rvminstallruby-2.0.0-p247$rvminstallruby=2.0.0-p247我很快就无处可去了。结果:$rvminstall2.0.0-p247Search

  5. ruby - Fast-stemmer 安装问题 - 2

    由于fast-stemmer的问题,我很难安装我想要的任何ruby​​gem。我把我得到的错误放在下面。Buildingnativeextensions.Thiscouldtakeawhile...ERROR:Errorinstallingfast-stemmer:ERROR:Failedtobuildgemnativeextension./System/Library/Frameworks/Ruby.framework/Versions/2.0/usr/bin/rubyextconf.rbcreatingMakefilemake"DESTDIR="cleanmake"DESTDIR=

  6. ruby - 安装 Ruby 时遇到问题(无法下载资源 "readline--patch") - 2

    当我尝试安装Ruby时遇到此错误。我试过查看this和this但无济于事➜~brewinstallrubyWarning:YouareusingOSX10.12.Wedonotprovidesupportforthispre-releaseversion.Youmayencounterbuildfailuresorotherbreakages.Pleasecreatepull-requestsinsteadoffilingissues.==>Installingdependenciesforruby:readline,libyaml,makedepend==>Installingrub

  7. java - 从 JRuby 调用 Java 类的问题 - 2

    我正在尝试使用boilerpipe来自JRuby。我看过guide从JRuby调用Java,并成功地将它与另一个Java包一起使用,但无法弄清楚为什么同样的东西不能用于boilerpipe。我正在尝试基本上从JRuby中执行与此Java等效的操作:URLurl=newURL("http://www.example.com/some-location/index.html");Stringtext=ArticleExtractor.INSTANCE.getText(url);在JRuby中试过这个:require'java'url=java.net.URL.new("http://www

  8. ruby-on-rails - 简单的 Ruby on Rails 问题——如何将评论附加到用户和文章? - 2

    我意识到这可能是一个非常基本的问题,但我现在已经花了几天时间回过头来解决这个问题,但出于某种原因,Google就是没有帮助我。(我认为部分问题在于我是一个初学者,我不知道该问什么......)我也看过O'Reilly的RubyCookbook和RailsAPI,但我仍然停留在这个问题上.我找到了一些关于多态关系的信息,但它似乎不是我需要的(尽管如果我错了请告诉我)。我正在尝试调整MichaelHartl'stutorial创建一个包含用户、文章和评论的博客应用程序(不使用脚手架)。我希望评论既属于用户又属于文章。我的主要问题是:我不知道如何将当前文章的ID放入评论Controller。

  9. 屏幕录制为什么没声音?检查这2项,轻松解决 - 2

    相信很多人在录制视频的时候都会遇到各种各样的问题,比如录制的视频没有声音。屏幕录制为什么没声音?今天小编就和大家分享一下如何录制音画同步视频的具体操作方法。如果你有录制的视频没有声音,你可以试试这个方法。 一、检查是否打开电脑系统声音相信很多小伙伴在录制视频后会发现录制的视频没有声音,屏幕录制为什么没声音?如果当时没有打开音频录制,则录制好的视频是没有声音的。因此,建议在录制前进行检查。屏幕上没有声音,很可能是因为你的电脑系统的声音被禁止了。您只需打开电脑系统的声音,即可录制音频和图画同步视频。操作方法:步骤1:点击电脑屏幕右下侧的“小喇叭”图案,在上方的选项中,选择“声音”。 步骤2:在“声

  10. 【高数】用拉格朗日中值定理解决极限问题 - 2

    首先回顾一下拉格朗日定理的内容:函数f(x)是在闭区间[a,b]上连续、开区间(a,b)上可导的函数,那么至少存在一个,使得:通过这个表达式我们可以知道,f(x)是函数的主体,a和b可以看作是主体函数f(x)中所取的两个值。那么可以有,  也就意味着我们可以用来替换 这种替换可以用在求某些多项式差的极限中。方法: 外层函数f(x)是一致的,并且h(x)和g(x)是等价无穷小。此时,利用拉格朗日定理,将原式替换为 ,再进行求解,往往会省去复合函数求极限的很多麻烦。使用要注意:1.要先找到主体函数f(x),即外层函数必须相同。2.f(x)找到后,复合部分是等价无穷小。3.要满足作差的形式。如果是加

随机推荐