MAPREDUCE

hadoop - 在 Hadoop 映射中处理 Zip 文件

我是Hadoop和Mapreduce的新手。现在我需要使用Mapreduce处理myproject中的一个zip文件，比如输入必须是一个zip文件，输出可能是zip或文本文件。任何人都可以给我sample或建议我一个链接。谢谢，瓦拉丹.S 最佳答案我目前还在研究Hadoop和Mapreduce。无需为Zip文件特别指定任何内容。hadoop会自动解压缩并处理它们。但是，输出是我正在使用的文本。我目前正在处理大量压缩文件，其中每个tar.gz文件都包含一个文本文件。问候巴拉拉姆关于ha

python - 将 Hadoop 流作业的输出发送到 STDOUT

对于流式作业，您必须指定输出目录。如果我想将映射器的结果输出到标准输出而不是HDFS目录怎么办？这可能吗？我想这样做，以便我可以通过管道传输到其他程序。最佳答案我在hadoop中编写了许多流式作业。目前尚不清楚您希望您的自定义管道在这里做什么。让我们仔细看看，假设您用python编写了映射器/缩减器(例如，对于shell脚本，从.py更改为.sh):hadoopjarhadoop-*streaming*.jar-filemapper.py-mappermapper.py\-input/user/myuser/input/*-ou

送到 python section strong 射器 apache hadoop mapreduce

java - hadoop框架上的排序算法

我在互联网上阅读了很多链接。这里有几个链接link1,link2.但我无法理解。他们到底在做什么。你能用更简单的方式解释一下这个算法吗？然后，是的，下一个问题，我想到了一种方法。告诉我它是否正确。算法-在映射器之间划分整数。映射器-所有映射器都使用基本方法(任何标准排序算法，此处不使用概念)。Reducer-当所有映射器完成他们的任务时。创建一个节点数等于映射器数量的最小堆。使用此最小堆对整个数据进行排序。(使用最小堆方法很容易对已排序列表的数量进行排序)。上述算法是否正确？最佳答案是的，你是对的。映射器使用快速排序和堆排序的混

架上 hadoop 射器 section strong java algorithm sorting mapreduce

java - hadoop中目录存在检查结果NPE

我正在尝试验证给定路径是HDFS中的目录或文件，但它会在fs.getFileStatus(path).isDir()行产生NPE。我不明白这里有什么问题，即使我验证了不为空的路径。publicstaticclassRegexExcludePathFilterextendsConfiguredimplementsPathFilter{privateStringpath;Stringpatterns="hdfs://localhost:9100/user/input-new/ncdc/filterdata/2007.[0-1]?[0-2].[0-9][0-9].txt";Configura

hadoop java section path FileSystem mapreduce

java - Hadoop 2.4 : java. lang.NoClassDefFoundError:org/apache/hcatalog/mapreduce/InputJobInfo

我已经从Hortonworks升级到最新的Hadoop:Hadoop2.4.0.2.1.2.1-471Subversiongit@github.com:hortonworks/hadoop.git-r9e5db004df1a751e93aa89b42956c5325f3a4482Compiledbyjenkinson2014-05-27T18:57ZCompiledwithprotoc2.5.0Fromsourcewithchecksum9e788148daa5dd7934eb468e57e037b5Thiscommandwasrunusing/usr/lib/hadoop/hadoo

NoClassDefFoundError java lib hive hadoop hcatalog

hadoop - hdfs-site.xml 上的配置属性是否适用于 hadoop 中的 NameNode？

最近搭建了一个hadoop的测试环境集群-一主两从Master不是dataNode(尽管有些使用master节点作为主节点和从节点)。所以基本上我有2个数据节点。复制的默认配置是3。最初，我没有更改conf/hdfs-site.xml上的任何配置。我遇到错误couldonlybereplicatedto0nodesinsteadof1。然后我在我的主从中更改了conf/hdfs-site.xml中的配置，如下所示:dfs.replication3瞧!一切正常。我的问题是:尽管我更改了所有数据节点和名称节点中的hdfs-site.xml，但此配置是否适用于名称节点或数据节点。如果我的理解

hadoop hdfs-site code section site mapreduce hdfs

java - 如何在 mapreduce Hadoop 中执行类似于 SQL 的 Between Operator

何在 mapreduce 自定 section yyyy java hadoop parallel-processing hbase

hadoop - 在 Map reduce 中每次修改代码都需要创建一个 jar 文件

我正在Hadoop单节点集群中运行一个程序(MapReduce)。经常对MapReduce逻辑进行一些修改。我正在使用EclipseIDE。每次修改逻辑后，我都会创建一个jar文件来检查Hadoop中的Mapreduce作业。每次修改MapReduce逻辑后都创建一个jar文件有点繁琐。有没有更简单的方法来在每次进行更改时创建jar文件？请指教。最佳答案不清楚是您必须制作jar文件这一事实还是制作jar的过程似乎太困难的问题。首先，您必须制作一个jar文件才能将作业提交到Hadoop。没有办法解决这个问题。其次，为了简化创建ja

hadoop reduce section jar MapReduce

hadoop - HBase MapReduce 作业加载配置(hbase-site.xml)，但实际上并没有

我正在编写一个从(a)HBase表读取的MapReduce作业。除了Configuration类之外，几乎所有的东西都按预期工作。所以我这样做了，Configurationconfig=HBaseConfiguration.create();GenericOptionsParserparser=newGenericOptionsParser(config,args);//Thisshouldworkbutisnotworking.config.addResource(newPath(parser.getCommandLine().getOptionValue("conf",DEFAUL

hbase-site MapReduce code hbase zookeeper hadoop

hadoop - 设置所需号码的映射器

我浏览了很多关于stackoverflow和apachewiki的博客，以了解映射器在Hadoop中的设置方式。我还经历了[hadoop-howtotalmappersaredetermined[这个帖子。有人说它基于InputFormat，而一些帖子说它基于输入文件ID分成的block数。一些我对默认设置感到困惑的地方。当我运行一个wordcount示例时，我看到映射器低至2。设置中到底发生了什么？还有这篇文章[http://svn.apache.org/repos/asf/hadoop/common/trunk/hadoop-mapreduce-project/hadoop-map

射器 hadoop section mapreduce mappers

36 37 383940 41 42