已经有一段时间没有更新实践内容了,不是因为没有在学习。而是工作上出现一个新的挑战,又在忙论文查重,论文也是大数据方向的,主要是ICT方向的一个技术(若有人感兴趣,我会另开一个帖子来详细谈这个内容)。 而且最近,把之前所有的实践环境换了一台电脑来重新搭建。按理说会很顺利,但没想到,还是出了许多问题。一些简单的问题就直接解决了,但仍是有两个大的故障,一直到今天下午才全部都解决了。现总结如下,为以后也能更好的学习使用。故障一:虚拟机上虚拟适配器不能链接到主机的网络故障现像: 在将原来的虚拟机整体复制到新电脑上之后,发现从虚拟机上可以PING通外网,但从自己的主机上不能PING通虚拟机。这样
已经有一段时间没有更新实践内容了,不是因为没有在学习。而是工作上出现一个新的挑战,又在忙论文查重,论文也是大数据方向的,主要是ICT方向的一个技术(若有人感兴趣,我会另开一个帖子来详细谈这个内容)。 而且最近,把之前所有的实践环境换了一台电脑来重新搭建。按理说会很顺利,但没想到,还是出了许多问题。一些简单的问题就直接解决了,但仍是有两个大的故障,一直到今天下午才全部都解决了。现总结如下,为以后也能更好的学习使用。故障一:虚拟机上虚拟适配器不能链接到主机的网络故障现像: 在将原来的虚拟机整体复制到新电脑上之后,发现从虚拟机上可以PING通外网,但从自己的主机上不能PING通虚拟机。这样
1.常见MON故障处理Monitor维护着Ceph集群的信息,如果Monitor无法正常提供服务,那整个Ceph集群就不可访问。一般来说,在实际运行中,CephMonitor的个数是2n+1(n>=0)个,在线上至少3个,只要正常的节点数>=n+1,Ceph的Paxos算法就能保证系统的正常运行。所以,当Monitor出现故障的时候,不要惊慌,冷静下来,一步一步地处理。1.1开始排障在遭遇Monitor故障时,首先回答下列几个问题:Mon进程在运行吗?我们首先要确保Mon进程是在正常运行的。很多人往往忽略了这一点。是否可以连接MonServer?有时候我们开启了防火墙,导致无法与Monitor
1.常见MON故障处理Monitor维护着Ceph集群的信息,如果Monitor无法正常提供服务,那整个Ceph集群就不可访问。一般来说,在实际运行中,CephMonitor的个数是2n+1(n>=0)个,在线上至少3个,只要正常的节点数>=n+1,Ceph的Paxos算法就能保证系统的正常运行。所以,当Monitor出现故障的时候,不要惊慌,冷静下来,一步一步地处理。1.1开始排障在遭遇Monitor故障时,首先回答下列几个问题:Mon进程在运行吗?我们首先要确保Mon进程是在正常运行的。很多人往往忽略了这一点。是否可以连接MonServer?有时候我们开启了防火墙,导致无法与Monitor
周末处理的一次故障,这里简单记录下。故障现象:6点1 分左右开始, Hadoop集群异常,所有的hdfs操作都出现问题。几十个 job报以下错FAILED: RuntimeException org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category WRITE is not supported in state standby或者: FAILED: RuntimeException org.apache.hadoop.ipc.RemoteException(
周末处理的一次故障,这里简单记录下。故障现象:6点1 分左右开始, Hadoop集群异常,所有的hdfs操作都出现问题。几十个 job报以下错FAILED: RuntimeException org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category WRITE is not supported in state standby或者: FAILED: RuntimeException org.apache.hadoop.ipc.RemoteException(
故障检测(FailureDetection)是GroupReplication的一个核心功能模块,通过它可以及时识别集群中的故障节点,并将故障节点从集群中剔除掉。如果不将故障节点及时剔除的话,一方面会影响集群的性能,另一方面还会阻止集群拓扑的变更。下面结合一个具体的案例,分析GroupReplication的故障检测流程。除此之外,本文还会分析以下问题。当出现网络分区时,对于少数派节点,会有什么影响?什么是XComCache?如何预估XComCache的大小?在线上,为什么group_replication_member_expel_timeout不宜设置过大?案例以下是测试集群的拓扑,多主模
故障检测(FailureDetection)是GroupReplication的一个核心功能模块,通过它可以及时识别集群中的故障节点,并将故障节点从集群中剔除掉。如果不将故障节点及时剔除的话,一方面会影响集群的性能,另一方面还会阻止集群拓扑的变更。下面结合一个具体的案例,分析GroupReplication的故障检测流程。除此之外,本文还会分析以下问题。当出现网络分区时,对于少数派节点,会有什么影响?什么是XComCache?如何预估XComCache的大小?在线上,为什么group_replication_member_expel_timeout不宜设置过大?案例以下是测试集群的拓扑,多主模
Spark调优之Shuffle调优本节开始先讲解Shuffle核心概念;然后针对HashShuffle、SortShuffle进行调优;接下来对map端、reduce端调优;再针对Spark中的数据倾斜问题进行剖析及调优;最后是Spark运行过程中的故障排除。本文首发于公众号【五分钟学大数据】,本公号专注于大数据技术,分享高质量大数据原创技术文章。一、Shuffle的核心概念1.ShuffleMapStage与ResultStageShuffleMapStage与ResultStage在划分stage时,最后一个stage称为FinalStage,它本质上是一个ResultStage对象,前面
Spark调优之Shuffle调优本节开始先讲解Shuffle核心概念;然后针对HashShuffle、SortShuffle进行调优;接下来对map端、reduce端调优;再针对Spark中的数据倾斜问题进行剖析及调优;最后是Spark运行过程中的故障排除。本文首发于公众号【五分钟学大数据】,本公号专注于大数据技术,分享高质量大数据原创技术文章。一、Shuffle的核心概念1.ShuffleMapStage与ResultStageShuffleMapStage与ResultStage在划分stage时,最后一个stage称为FinalStage,它本质上是一个ResultStage对象,前面