草庐IT

reduced_bitmap

全部标签

java - 使用 java 运行 Hadoop map reduce 作业时抛出空指针异常

提前致谢...我正在运行Hadoop版本0.20.0和HBase0.94。我有一个聚合逻辑,它将使用调度程序每晚12点运行。我们正处于无法升级HBase和Hadoop的阶段。在运行MapReduce作业时,它抛出如下异常,java.lang.NullPointerExceptionatorg.apache.hadoop.conf.Configuration.getLocalPath(Configuration.java:877)atorg.apache.hadoop.mapred.JobConf.getLocalPath(JobConf.java:280)atorg.apache.ha

python - reducer 完成后调用 mapper

我执行的工作是:hadoop/bin/./hadoopjar/home/hadoopuser/hadoop/share/hadoop/tools/lib/hadoop-streaming-2.6.0.jar-Dmapred.reduce.tasks=2-filekmeans_mapper.py-mapperkmeans_mapper.py-filekmeans_reducer.py\-reducerkmeans_reducer.py-inputgutenberg/small_train.csv-outputgutenberg/out当两个reducer完成后,我想对结果做一些事情,所以

java - 在测试中为 hdfs map reduce 可以设置多低的 Yarn 容器内存?

我正在设置一个hadoop单节点环境,用于在只有4GB物理内存的硬件上进行测试,并使用hadoop2.6.0。我只使用了针对此类环境建议的基本配置。但我现在担心我可能应该调整内存资源管理以便能够运行一些mapreduce示例。我知道有几个设置需要查看,包括Java堆以及映射和缩减任务的内存。对于像我这样的小规模测试环境,我应该/可以将最小、最大容器大小设置多低,以使适度的mapreduce任务正常运行?我特别指的是:yarn.scheduler.minimum-allocation-mbyarn.scheduler.maximum-allocation-mb启动-dfs和启动-yarn

hadoop - 如何使用一个 reducer 的输出作为另一个映射器的输入?

我想从reducer的输出中提取不同的值。为此,我在单独的映射器和缩减器中编写了代码。也就是说,我有一个mapperreducer用于生成训练文件,第二个mapper-reducer提供来自训练文件的不同行。我想要这两个文件用于测试目的。那么如何将第一个reducer的输出作为另一个mapper的输入呢? 最佳答案 您可以轻松做到这一点:只需将第一个作业的输出目录作为输入目录传递给第二个作业。我在这个例子中称它为outputTempDir:StringinputDir="/input";StringoutputTempDir="/o

hadoop - Map Reduce 中的键值

我只是Hadoop框架的初学者。我想在这里了解几个概念,我浏览了很多链接,但我想得到明确的答案1)为什么Mapreduce只适用于键值对。我还读到我可以创建一个Mapreduce作业而无需实际使用reduce2)Mapping阶段的输入key是fileoffsetkey。我可以使用显式键值吗?还是自定义输入? 最佳答案 很好,您正在挖掘hadoop概念。1)我可以使用显式键值吗?或自定义输入?:是的,编写您自己的(覆盖)RecordReader来执行此操作。2)为什么Mapreduce只适用于键值对?:MapReduce,顾名思义,

java - MapReduce - 不调用 Reduce

我一直在尝试运行这个我在互联网上找到并根据我的意图进行了更改的项目。Map函数被调用并正常工作,我从控制台检查了结果。但是reduce没有被调用前两位是键,其余是值。我已经控制了map输出和reduce输入键、值对之间的匹配,我已经多次更改它们,尝试了不同的方法但无法得到解决方案。由于我是这个主题的初学者,所以可能存在一个小错误。我写了另一个项目,又犯了同样的错误“reduceisnotcalled”我还尝试将reduce的输出值类更改为IntWritable、TextWritable而不是MedianStdDevTuple并配置了作业,但没有任何改变。我不仅需要解决方案,还想知道原因

java - 在 Hadoop 中的 Reducer 中收集多个映射器的结果

我有多个非常大的文件(将近500MB)作为我的MR程序的输入。我将这些文件划分(拆分)为大小相等的分区。每个Mapper得到文件的单个分区Mapper:Key=(filename,partition_number)andValue=(characterstreamofpartition)我正在对映射器中的值(字符流)应用一些计算。我想在一个reducer中收集与输入文件(对于它的所有分区)对应的结果。所以我将reduceri/pkey视为“文件名”。但是mapper的那些输出必须按顺序收集到reducer中。(如[partition1o/p+partition2+...+partiti

hadoop - 如何从 map-reduce 程序中获取唯一的键和值?

从reducer,我得到以下输出。keyvalue1apple2apple3apple4orange5orange但是,我需要以下输出:keyvalue1apple4orange什么是正确的实现方式? 最佳答案 此图显示了字数统计流程。您可以通过以下方式实现:1.Pig脚本(内部生成一个mapreducejob)对于非java开发者你需要安装pig。您需要在HDFS中有您的输入文件。然后在gruntshell或Hue(无论你有什么选择)中使用以下代码lines=LOAD'pathofinputfile'AS(line:chararr

java - 如何处理 URISyntaxException : Illegal character in path in Hadoop Map Reduce job?

我正在使用Hadoop学习Map-reduce,我正在运行这个命令:hadoopjar/usr/lib/hadoop/share/hadoop/tools/lib/hadoop-streaming-2.7.2.jar-mappermapper.py-reducerreducer.py-filemapper.py-filereducer.py-输入sales_data-输出salesout我包括了我得到的完整错误输出:16/04/1500:39:26WARNstreaming.StreamJob:-fileoptionisdeprecated,pleaseusegenericoption

hadoop - Hadoop 中的 Reducer 任务未按预期运行

我有2个用于HadoopMapRed任务的输入文件。程序的输入是input.txt,每行包含PaperIDkeyword1keyword2FieldIDp20kjf3p21kjf11p22kjf3p23kjf2p23kjf1Reducer类中使用的文件sammap.txt在每一行中包含FieldIDFieldNamef1AIf2DBf3DBf4AI代码如下:包多拉多;importjava.io.BufferedReader;importjava.io.FileReader;importjava.io.IOException;importjava.util.ArrayList;impor