近期因为生产上es集群出现了内存快速占用满、频繁gc、集群无响应的现象,查看集群日志和满查询日志,发现都是因为频繁gc集群无响应后出现的报错、gc高频的警告以及平时不慢的查询报文出现在慢查询日志里。看kibana的监控,发现内存几乎是在几秒内就占用满,并且满了以后,由于可用内存不足就开始频繁的fullgc,cpu居高不下,集群此时基本在无法响应的状态,有遇到这种情况,只能重启才能解决,无法自己恢复,内存虽然已经占用满,但是集群日志中没有OOM的异常,而且出现的概率比较随机。由于之前没有遇到过这个问题,所以想能不能通过prometheus的监控来看是不是在集群异常时有一些异常指标,没想到部署好以
近期因为生产上es集群出现了内存快速占用满、频繁gc、集群无响应的现象,查看集群日志和满查询日志,发现都是因为频繁gc集群无响应后出现的报错、gc高频的警告以及平时不慢的查询报文出现在慢查询日志里。看kibana的监控,发现内存几乎是在几秒内就占用满,并且满了以后,由于可用内存不足就开始频繁的fullgc,cpu居高不下,集群此时基本在无法响应的状态,有遇到这种情况,只能重启才能解决,无法自己恢复,内存虽然已经占用满,但是集群日志中没有OOM的异常,而且出现的概率比较随机。由于之前没有遇到过这个问题,所以想能不能通过prometheus的监控来看是不是在集群异常时有一些异常指标,没想到部署好以