草庐IT

MAPREDUCE

全部标签

hadoop - 在 Hadoop 映射中处理 Zip 文件

我是Hadoop和Mapreduce的新手。现在我需要使用Mapreduce处理myproject中的一个zip文件,比如输入必须是一个zip文件,输出可能是zip或文本文件。任何人都可以给我sample或建议我一个链接。谢谢,瓦拉丹.S 最佳答案 我目前还在研究Hadoop和Mapreduce。无需为Zip文件特别指定任何内容。hadoop会自动解压缩并处理它们。但是,输出是我正在使用的文本。我目前正在处理大量压缩文件,其中每个tar.gz文件都包含一个文本文件。问候巴拉拉姆 关于ha

python - 将 Hadoop 流作业的输出发送到 STDOUT

对于流式作业,您必须指定输出目录。如果我想将映射器的结果输出到标准输出而不是HDFS目录怎么办?这可能吗?我想这样做,以便我可以通过管道传输到其他程序。 最佳答案 我在hadoop中编写了许多流式作业。目前尚不清楚您希望您的自定义管道在这里做什么。让我们仔细看看,假设您用python编写了映射器/缩减器(例如,对于shell脚本,从.py更改为.sh):hadoopjarhadoop-*streaming*.jar-filemapper.py-mappermapper.py\-input/user/myuser/input/*-ou

java - hadoop框架上的排序算法

我在互联网上阅读了很多链接。这里有几个链接link1,link2.但我无法理解。他们到底在做什么。你能用更简单的方式解释一下这个算法吗?然后,是的,下一个问题,我想到了一种方法。告诉我它是否正确。算法-在映射器之间划分整数。映射器-所有映射器都使用基本方法(任何标准排序算法,此处不使用概念)。Reducer-当所有映射器完成他们的任务时。创建一个节点数等于映射器数量的最小堆。使用此最小堆对整个数据进行排序。(使用最小堆方法很容易对已排序列表的数量进行排序)。上述算法是否正确? 最佳答案 是的,你是对的。映射器使用快速排序和堆排序的混

java - hadoop中目录存在检查结果NPE

我正在尝试验证给定路径是HDFS中的目录或文件,但它会在fs.getFileStatus(path).isDir()行产生NPE。我不明白这里有什么问题,即使我验证了不为空的路径。publicstaticclassRegexExcludePathFilterextendsConfiguredimplementsPathFilter{privateStringpath;Stringpatterns="hdfs://localhost:9100/user/input-new/ncdc/filterdata/2007.[0-1]?[0-2].[0-9][0-9].txt";Configura

java - Hadoop 2.4 : java. lang.NoClassDefFoundError:org/apache/hcatalog/mapreduce/InputJobInfo

我已经从Hortonworks升级到最新的Hadoop:Hadoop2.4.0.2.1.2.1-471Subversiongit@github.com:hortonworks/hadoop.git-r9e5db004df1a751e93aa89b42956c5325f3a4482Compiledbyjenkinson2014-05-27T18:57ZCompiledwithprotoc2.5.0Fromsourcewithchecksum9e788148daa5dd7934eb468e57e037b5Thiscommandwasrunusing/usr/lib/hadoop/hadoo

hadoop - hdfs-site.xml 上的配置属性是否适用于 hadoop 中的 NameNode?

最近搭建了一个hadoop的测试环境集群-一主两从Master不是dataNode(尽管有些使用master节点作为主节点和从节点)。所以基本上我有2个数据节点。复制的默认配置是3。最初,我没有更改conf/hdfs-site.xml上的任何配置。我遇到错误couldonlybereplicatedto0nodesinsteadof1。然后我在我的主从中更改了conf/hdfs-site.xml中的配置,如下所示:dfs.replication3瞧!一切正常。我的问题是:尽管我更改了所有数据节点和名称节点中的hdfs-site.xml,但此配置是否适用于名称节点或数据节点。如果我的理解

java - 如何在 mapreduce Hadoop 中执行类似于 SQL 的 Between Operator

我正在尝试编写一个mapreduce作业,它将模拟sql查询的between运算符我的情况是我有2个hdfs文件:HDFS文件1包含开始日期、结束日期和更改日期:StartDate|EndDate|ChangedDatedd/MM/yyyy|dd/MM/yyyy|dd/MM/yyyydd/MM/yyyy|dd/MM/yyyy|dd/MM/yyyydd/MM/yyyy|dd/MM/yyyy|dd/MM/yyyy........HDFS文件2包含需要执行betweenoperator的数据Data1|Data2|DATEdata|otherdata......Data1|Data2|DAT

hadoop - 在 Map reduce 中每次修改代码都需要创建一个 jar 文件

我正在Hadoop单节点集群中运行一个程序(MapReduce)。经常对MapReduce逻辑进行一些修改。我正在使用EclipseIDE。每次修改逻辑后,我都会创建一个jar文件来检查Hadoop中的Mapreduce作业。每次修改MapReduce逻辑后都创建一个jar文件有点繁琐。有没有更简单的方法来在每次进行更改时创建jar文件?请指教。 最佳答案 不清楚是您必须制作jar文件这一事实还是制作jar的过程似乎太困难的问题。首先,您必须制作一个jar文件才能将作业提交到Hadoop。没有办法解决这个问题。其次,为了简化创建ja

hadoop - HBase MapReduce 作业加载配置(hbase-site.xml),但实际上并没有

我正在编写一个从(a)HBase表读取的MapReduce作业。除了Configuration类之外,几乎所有的东西都按预期工作。所以我这样做了,Configurationconfig=HBaseConfiguration.create();GenericOptionsParserparser=newGenericOptionsParser(config,args);//Thisshouldworkbutisnotworking.config.addResource(newPath(parser.getCommandLine().getOptionValue("conf",DEFAUL

hadoop - 设置所需号码的映射器

我浏览了很多关于stackoverflow和apachewiki的博客,以了解映射器在Hadoop中的设置方式。我还经历了[hadoop-howtotalmappersaredetermined[这个帖子。有人说它基于InputFormat,而一些帖子说它基于输入文件ID分成的block数。一些我对默认设置感到困惑的地方。当我运行一个wordcount示例时,我看到映射器低至2。设置中到底发生了什么?还有这篇文章[http://svn.apache.org/repos/asf/hadoop/common/trunk/hadoop-mapreduce-project/hadoop-map