故障_草庐IT

大数据实践总结－－两个故障的处理及思路总结

已经有一段时间没有更新实践内容了，不是因为没有在学习。而是工作上出现一个新的挑战，又在忙论文查重，论文也是大数据方向的，主要是ICT方向的一个技术（若有人感兴趣，我会另开一个帖子来详细谈这个内容）。而且最近，把之前所有的实践环境换了一台电脑来重新搭建。按理说会很顺利，但没想到，还是出了许多问题。一些简单的问题就直接解决了，但仍是有两个大的故障，一直到今天下午才全部都解决了。现总结如下，为以后也能更好的学习使用。故障一：虚拟机上虚拟适配器不能链接到主机的网络故障现像：在将原来的虚拟机整体复制到新电脑上之后，发现从虚拟机上可以PING通外网，但从自己的主机上不能PING通虚拟机。这样

大数总结 0px padding nbsp 实践大数据Hadoop 大数据

大数据实践总结－－两个故障的处理及思路总结

已经有一段时间没有更新实践内容了，不是因为没有在学习。而是工作上出现一个新的挑战，又在忙论文查重，论文也是大数据方向的，主要是ICT方向的一个技术（若有人感兴趣，我会另开一个帖子来详细谈这个内容）。而且最近，把之前所有的实践环境换了一台电脑来重新搭建。按理说会很顺利，但没想到，还是出了许多问题。一些简单的问题就直接解决了，但仍是有两个大的故障，一直到今天下午才全部都解决了。现总结如下，为以后也能更好的学习使用。故障一：虚拟机上虚拟适配器不能链接到主机的网络故障现像：在将原来的虚拟机整体复制到新电脑上之后，发现从虚拟机上可以PING通外网，但从自己的主机上不能PING通虚拟机。这样

大数总结 0px padding nbsp 实践大数据Hadoop 大数据

ceph分布式存储-常见MON故障处理

1.常见MON故障处理Monitor维护着Ceph集群的信息，如果Monitor无法正常提供服务，那整个Ceph集群就不可访问。一般来说，在实际运行中，CephMonitor的个数是2n+1(n>=0)个，在线上至少3个，只要正常的节点数>=n+1，Ceph的Paxos算法就能保证系统的正常运行。所以，当Monitor出现故障的时候，不要惊慌，冷静下来，一步一步地处理。1.1开始排障在遭遇Monitor故障时，首先回答下列几个问题：Mon进程在运行吗？我们首先要确保Mon进程是在正常运行的。很多人往往忽略了这一点。是否可以连接MonServer？有时候我们开启了防火墙，导致无法与Monitor

ceph MON code monitor strong 分布式存储分布式服务器

ceph分布式存储-常见MON故障处理

1.常见MON故障处理Monitor维护着Ceph集群的信息，如果Monitor无法正常提供服务，那整个Ceph集群就不可访问。一般来说，在实际运行中，CephMonitor的个数是2n+1(n>=0)个，在线上至少3个，只要正常的节点数>=n+1，Ceph的Paxos算法就能保证系统的正常运行。所以，当Monitor出现故障的时候，不要惊慌，冷静下来，一步一步地处理。1.1开始排障在遭遇Monitor故障时，首先回答下列几个问题：Mon进程在运行吗？我们首先要确保Mon进程是在正常运行的。很多人往往忽略了这一点。是否可以连接MonServer？有时候我们开启了防火墙，导致无法与Monitor

ceph MON code monitor strong 分布式存储分布式服务器

namenode gc导致的故障一例

周末处理的一次故障，这里简单记录下。故障现象：6点1 分左右开始， Hadoop集群异常，所有的hdfs操作都出现问题。几十个 job报以下错FAILED: RuntimeException org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category WRITE is not supported in state standby或者： FAILED: RuntimeException org.apache.hadoop.ipc.RemoteException(

namenode 导致 nbsp span font namenodegc故障Hadoop 大数据

namenode gc导致的故障一例

周末处理的一次故障，这里简单记录下。故障现象：6点1 分左右开始， Hadoop集群异常，所有的hdfs操作都出现问题。几十个 job报以下错FAILED: RuntimeException org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category WRITE is not supported in state standby或者： FAILED: RuntimeException org.apache.hadoop.ipc.RemoteException(

namenode 导致 nbsp span font namenodegc故障Hadoop 大数据

基于案例分析 MySQL Group Replication 的故障检测流程

故障检测（FailureDetection）是GroupReplication的一个核心功能模块，通过它可以及时识别集群中的故障节点，并将故障节点从集群中剔除掉。如果不将故障节点及时剔除的话，一方面会影响集群的性能，另一方面还会阻止集群拓扑的变更。下面结合一个具体的案例，分析GroupReplication的故障检测流程。除此之外，本文还会分析以下问题。当出现网络分区时，对于少数派节点，会有什么影响？什么是XComCache？如何预估XComCache的大小？在线上，为什么group_replication_member_expel_timeout不宜设置过大？案例以下是测试集群的拓扑，多主模

案例分析 Replication replication group member MySQL GroupReplicationMySQL 数据库

基于案例分析 MySQL Group Replication 的故障检测流程

故障检测（FailureDetection）是GroupReplication的一个核心功能模块，通过它可以及时识别集群中的故障节点，并将故障节点从集群中剔除掉。如果不将故障节点及时剔除的话，一方面会影响集群的性能，另一方面还会阻止集群拓扑的变更。下面结合一个具体的案例，分析GroupReplication的故障检测流程。除此之外，本文还会分析以下问题。当出现网络分区时，对于少数派节点，会有什么影响？什么是XComCache？如何预估XComCache的大小？在线上，为什么group_replication_member_expel_timeout不宜设置过大？案例以下是测试集群的拓扑，多主模

案例分析 Replication replication group member MySQL GroupReplicationMySQL 数据库

Spark性能调优-Shuffle调优及故障排除篇

Spark调优之Shuffle调优本节开始先讲解Shuffle核心概念；然后针对HashShuffle、SortShuffle进行调优；接下来对map端、reduce端调优；再针对Spark中的数据倾斜问题进行剖析及调优；最后是Spark运行过程中的故障排除。本文首发于公众号【五分钟学大数据】，本公号专注于大数据技术，分享高质量大数据原创技术文章。一、Shuffle的核心概念1.ShuffleMapStage与ResultStageShuffleMapStage与ResultStage在划分stage时，最后一个stage称为FinalStage，它本质上是一个ResultStage对象，前面

Shuffle Spark span style color 大数据 sparkSpark

Spark性能调优-Shuffle调优及故障排除篇

Spark调优之Shuffle调优本节开始先讲解Shuffle核心概念；然后针对HashShuffle、SortShuffle进行调优；接下来对map端、reduce端调优；再针对Spark中的数据倾斜问题进行剖析及调优；最后是Spark运行过程中的故障排除。本文首发于公众号【五分钟学大数据】，本公号专注于大数据技术，分享高质量大数据原创技术文章。一、Shuffle的核心概念1.ShuffleMapStage与ResultStageShuffleMapStage与ResultStage在划分stage时，最后一个stage称为FinalStage，它本质上是一个ResultStage对象，前面

Shuffle Spark span style color 大数据 sparkSpark