草庐IT

hadoopHadoop

全部标签

DataNode与NameNode交互机制相关代码分析

    HDFSFederation是为解决HDFS单点故障而提出的NameNode水平扩展方案,该方案允许HDFS创建多个Namespace以提高集群的扩展性和隔离性。在Federation中新增了block-pool的概念,block-pool就是属于单个Namespace的一组block,每个DataNode为所有的block-pool存储block,可以理解block-pool是一个重新将block划分的逻辑概念,同一个DataNode中可以存储属于多个block-pool的多个block。所以在NameNode和DataNode通信相关的代码方面,也做了很大的改动以支持上述特性。  

MRv2内存监控强杀Container问题解决

        线上某个hivejob运行失败,报错如下    Container [pid=28474,containerID=container_1411897705890_0181_01_000012] is running beyond physical memory limits. Current usage: 1.0 GB of 1 GB physical memory used; 1.5 GB of 2.1 GB virtual memory used. Killing container.Dump of the process-tree for container_141189

Hadoop运维记录系列(十三)

记录一下在2.x里面不会很常见的报错。只是在测试集群中发生,生产集群大概很少有人会去重启Namenode吧,特别是做了HA的。场景是在2.x里做好了NamenodeHA,以NamespaceURI方式访问HDFS时,报错,然后两个Namenode貌似都是standby,然后历史任务服务器无法启动,HBase的Master也无法启动。其实这个故障很简单。2014-06-05 17:20:09,548 FATAL hs.JobHistoryServer (JobHistoryServer.java:launchJobHistoryServer(158)) - Error starting JobH

给刚玩Hadoop的朋友一些建议

  随着两会中间央视新闻天天说大数据,很多人纷纷开始关注大数据和Hadoop以及数据挖掘和数据可视化了,我现在创业,遇到很多传统数据行业往Hadoop上面去转型的公司和个人,提了很多问题,大多数问题还都是差不多的。所以我想整理一些,也可能是很多人都关注的问题。关于Hadoop版本的选择?  目前为止,作为半只脚迈进Hadoop大门的人,我建议大家还是选择Hadoop1.x用。可能很多人会说,Hadoop都出到2.4,为啥还用1.x呢,说这话一听就没玩过hadoop。  理由一:Hadoop1.x和2.x是完全两个不同的东西,并不是像说单机的webserver从1.0升级到2.0那么简单的事情。

Hadoop Install

煮酒品茶:大晚上的,有气无力的呻吟,让你深深的感觉听我的声音是一种折磨。没录好,笔记本声音也没录好,将就着听吧。哈哈#InstallHadoopMaster#DownLoadHadoopandJdkpacketsOne:stopallhostsSelinuxandiptables.#serviceiptablesstop#chkconfigiptablesoff#sed-i's/SELINUX=enforcing/SELINUX=disabled/g'/etc/selinux/config#setenforce0Two:changehostnameandhosts#cat/etc/syscon

MapReduce工作的基本流程

   Hadoop0.2之前版本和之后版本在Job中有很大的改进,本次采用的版本是Hadoop1.1.2版本。   现在作为作业驱动器,可以直接继承Configured以及实现Tool,这种方式可以很便捷的获取启动时候命令行中输入的作业配置参数,常规的Job启动如下:publicclassSortByHashextendsConfiguredimplementsTool{publicintrun(String[]args)throwsException{//这里面负责配置job属性Configurationconf=getConf();String[]paths=newGenericOptio

Hadoop数据分析平台搭建

一.配置安装环境1>在虚拟机Vmware上搭建三台RedHatEnterpriselinux,其中一台为master,另外两台位slaves。2>下载相关的软件,如javajdk、hadoop-0.20.2等。二.安装和配置步骤1>要是hadoop能过正常的免密码在各个节点中连接传输数据,最重要的是配置SSH,生成密钥。2>jdk的安装,修改/etc/profile文件。3>hadoop安装,同时也要修改hadoop下conf目录下的core-site.xml、hdfs-site.xml和mapred-site.xml三个核心文件。4>最后是格式化HDFS和启动hadoop。三.Hadoop数

pycurl实现hadoop的客户端功能

 pycurl实现hadoop的客户端功能目前在测试一个hadoop的功能,需要频繁的和hadoop打交道。刚开始采用的python的subprocess模块来调用底层的hadoop提供的命令行工具实现的。一,hadoop提供的命令行格式说明:hadoopfs[cmd]具体的命令有: hadoopfs[-fs][-conf] [-D][-ls][-lsr][-du] [-dus][-mv][-cp][-rm[-skipTrash]] [-rmr[-skipTrash]][-put...][-copyFromLocal...] [-moveFromLocal...][-get[-ignoreCr

使用FreeBSD的ports安装hadoop

3月初写过FreeBSD下安装hadoop的文章,那会hadoop还没有进入FreeBSD的ports,刚写完没多久,3月27日。FreeBSD的ports树就引入了hadoop,安装就太方便了。怎么更新ports树就略过了,直接跳到安装hadoop#cd/usr/ports/devel/hadoop#makeinstallclean等着完事就行了。都是编译安装,非常优化,而且自动解决依赖关系,诸如bash,openjdk一类的,目前的版本是hadoop-1.0.0。不过我还没想明白将来hadoopports更新的时候,ports是如何进行热更新的。不过还不够全自动,少量的东西会需要手工配置一

hadoop状态分析系统chukwa

Apache的开源项目hadoop,作为一个分布式存储和计算系统,已经被业界广泛应用。很多大型企业都有了各自基于hadoop的应用和相关扩展。当1000+以上个节点的hadoop集群变得常见时,集群自身的相关信息如何收集和分析呢?针对这个问题,Apache同样提出了相应的解决方案,那就是chukwa。述chukwa的官方网站是这样描述自己的:chukwa是一个开源的用于监控大型分布式系统的数据收集系统。这是构建在hadoop的hdfs和map/reduce框架之上的,继承了hadoop的可伸缩性和鲁棒性。Chukwa还包含了一个强大和灵活的工具集,可用于展示、监控和分析已收集的数据。在一些网站