草庐IT

HadoopHadoop

全部标签

Hadoop面试题总结(二)——HDFS

关注公众号:大数据技术派,回复“资料”,领取资料,学习大数据技术。本文首发于我的个人博客:Hadoop面试题总结(二)——HDFS1、HDFS中的block默认保存几份?默认保存3份2、HDFS默认BlockSize是多大?默认64MB3、负责HDFS数据存储的是哪一部分?DataNode负责数据存储4、SecondaryNameNode的目的是什么?他的目的使帮助NameNode合并编辑日志,减少NameNode启动时间5、文件大小设置,增大有什么影响?HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数(dfs.blocksize)来规定,默认大小在hadoop2.x

Hadoop 官方WordCount案例带你手把手的解析

文章目录1.需求2.需求分析3.项目结构图4.项目依赖包5.编写Mapper6.编写Reducer7.编写Driver出现如下所示就欧克,接着看结果1.需求在给定的文本文件中统计输出每一个单词出现的总次数hello.txthadoophadoopssssclsclsjiaobanzhangxue2.需求分析3.项目结构图4.项目依赖包dependencies>dependency>groupId>junit/groupId>artifactId>junit/artifactId>version>RELEASE/version>/dependency>dependency>groupId>org

DataNode与NameNode交互机制相关代码分析

    HDFSFederation是为解决HDFS单点故障而提出的NameNode水平扩展方案,该方案允许HDFS创建多个Namespace以提高集群的扩展性和隔离性。在Federation中新增了block-pool的概念,block-pool就是属于单个Namespace的一组block,每个DataNode为所有的block-pool存储block,可以理解block-pool是一个重新将block划分的逻辑概念,同一个DataNode中可以存储属于多个block-pool的多个block。所以在NameNode和DataNode通信相关的代码方面,也做了很大的改动以支持上述特性。  

MRv2内存监控强杀Container问题解决

        线上某个hivejob运行失败,报错如下    Container [pid=28474,containerID=container_1411897705890_0181_01_000012] is running beyond physical memory limits. Current usage: 1.0 GB of 1 GB physical memory used; 1.5 GB of 2.1 GB virtual memory used. Killing container.Dump of the process-tree for container_141189

Hadoop运维记录系列(十三)

记录一下在2.x里面不会很常见的报错。只是在测试集群中发生,生产集群大概很少有人会去重启Namenode吧,特别是做了HA的。场景是在2.x里做好了NamenodeHA,以NamespaceURI方式访问HDFS时,报错,然后两个Namenode貌似都是standby,然后历史任务服务器无法启动,HBase的Master也无法启动。其实这个故障很简单。2014-06-05 17:20:09,548 FATAL hs.JobHistoryServer (JobHistoryServer.java:launchJobHistoryServer(158)) - Error starting JobH

给刚玩Hadoop的朋友一些建议

  随着两会中间央视新闻天天说大数据,很多人纷纷开始关注大数据和Hadoop以及数据挖掘和数据可视化了,我现在创业,遇到很多传统数据行业往Hadoop上面去转型的公司和个人,提了很多问题,大多数问题还都是差不多的。所以我想整理一些,也可能是很多人都关注的问题。关于Hadoop版本的选择?  目前为止,作为半只脚迈进Hadoop大门的人,我建议大家还是选择Hadoop1.x用。可能很多人会说,Hadoop都出到2.4,为啥还用1.x呢,说这话一听就没玩过hadoop。  理由一:Hadoop1.x和2.x是完全两个不同的东西,并不是像说单机的webserver从1.0升级到2.0那么简单的事情。