故障检测(FailureDetection)是GroupReplication的一个核心功能模块,通过它可以及时识别集群中的故障节点,并将故障节点从集群中剔除掉。如果不将故障节点及时剔除的话,一方面会影响集群的性能,另一方面还会阻止集群拓扑的变更。下面结合一个具体的案例,分析GroupReplication的故障检测流程。除此之外,本文还会分析以下问题。当出现网络分区时,对于少数派节点,会有什么影响?什么是XComCache?如何预估XComCache的大小?在线上,为什么group_replication_member_expel_timeout不宜设置过大?案例以下是测试集群的拓扑,多主模