草庐IT

记一次Linux server偶发CPU飙升问题的跟进与解决

背景进入6月后,随着一个主要功能版本api的上线,服务端的QPS翻了一倍,平时服务器的CPU使用稳定在30%上下,高峰期则在60%上下,但是偶尔会有单台机器出现持续数分钟突然飙到90%以上,导致大量api响应缓慢超过客户端等待时间,触发其主动断开连接产生大量nginx499。问题分析与解决问题期间器资源情况仔细查看问题期间的zabbix监控数据,发现90%的CPU占用中有10%上下是systime,5%上下是softirqtime,两者相加可占到接近20%,interrupt和contextswitch数由之前的10k/s飙升至20k+/s。定位kafkalog发送代码首先猜测就是某个新加功能

记一次Linux server偶发CPU飙升问题的跟进与解决

背景进入6月后,随着一个主要功能版本api的上线,服务端的QPS翻了一倍,平时服务器的CPU使用稳定在30%上下,高峰期则在60%上下,但是偶尔会有单台机器出现持续数分钟突然飙到90%以上,导致大量api响应缓慢超过客户端等待时间,触发其主动断开连接产生大量nginx499。问题分析与解决问题期间器资源情况仔细查看问题期间的zabbix监控数据,发现90%的CPU占用中有10%上下是systime,5%上下是softirqtime,两者相加可占到接近20%,interrupt和contextswitch数由之前的10k/s飙升至20k+/s。定位kafkalog发送代码首先猜测就是某个新加功能