JvmGcMonitorService

elasticsearch 一次性查询数据量过大 jvm内存快速占用满导致集群无响应

近期因为生产上es集群出现了内存快速占用满、频繁gc、集群无响应的现象，查看集群日志和满查询日志，发现都是因为频繁gc集群无响应后出现的报错、gc高频的警告以及平时不慢的查询报文出现在慢查询日志里。看kibana的监控，发现内存几乎是在几秒内就占用满，并且满了以后，由于可用内存不足就开始频繁的fullgc，cpu居高不下，集群此时基本在无法响应的状态，有遇到这种情况，只能重启才能解决，无法自己恢复，内存虽然已经占用满，但是集群日志中没有OOM的异常，而且出现的概率比较随机。由于之前没有遇到过这个问题，所以想能不能通过prometheus的监控来看是不是在集群异常时有一些异常指标，没想到部署好以

elasticsearch 一次性查询数据量过大 jvm内存快速占用满导致集群无响应

JvmGcMonitorService

elasticsearch 一次性查询数据量过大 jvm内存快速占用满 导致集群无响应

elasticsearch 一次性查询数据量过大 jvm内存快速占用满 导致集群无响应

elasticsearch 一次性查询数据量过大 jvm内存快速占用满导致集群无响应

elasticsearch 一次性查询数据量过大 jvm内存快速占用满导致集群无响应