草庐IT

mapReduce

全部标签

Fetcher : Exceeded MAX_FAILED_UNIQUE_FETCHES 随机播放中的 Hadoop 错误

我是hadoop的新手。我在虚拟机上设置了一个支持kerberos安全性的hadoop集群(主站和1个从站)。我正在尝试从hadoop示例“pi”运行作业。作业终止并出现错误ExceededMAX_FAILED_UNIQUE_FETCHES。我尝试搜索此错误,但互联网上提供的解决方案似乎对我不起作用。也许我遗漏了一些明显的东西。我什至尝试从etc/hadoop/slaves文件中删除从站,以查看该作业是否只能在主站上运行,但也失败并出现相同的错误。下面是日志。我在64位Ubuntu14.04虚拟机上运行它。任何帮助表示赞赏。montauk@montauk-vmaster:/usr/lo

hadoop - Map Reduce 插槽定义

我即将成为一名ClouderaHadoop管理员。从一开始,我就听到很多关于Hadoop集群中每台机器计算槽的信息,比如定义MapSlot和Reduce槽的数量。我在互联网上搜索了一个日志时间来获取MapReduceSlot的新手定义,但没有找到。浏览PDF解释MapReduce配置时,我真的很生气。当涉及到集群机器中的计算插槽时,请解释它的确切含义。 最佳答案 在map-reducev.1中,mapreduce.tasktracker.map.tasks.maximum和mapreduce.tasktracker.reduce.t

java.io.IOException : Initialization of all the collectors failed. 最后一个收集器中的错误是:null

我是MapReduce的新手,我正在尝试找到问题的解决方案。我正在尝试链接两个mapreduce作业。第一个作业正在执行,但在第二个作业中我收到如下错误INFOmapreduce.Job:TaskId:attempt_1445271708293_0055_m_000000_1,Status:FAILEDError:java.io.IOException:Initializationofallthecollectorsfailed.Errorinlastcollectorwas:nullatorg.apache.hadoop.mapred.MapTask.createSortingCol

hadoop - 如何在 oozie 作业中指定多个 libpath?

我的oozie作业使用2个jarx.jar和y.jar,下面是我的job.properties文件。oozie.libpath=/liboozie.use.system.libpath=true当两个jar都位于HDFS上的相同位置/lib/x.jar和/lib/y.jar时,这非常有效现在我有2个jar放在不同的位置/lib/1/x.jar和/lib/2/y.jar。我如何重写我的代码,以便在运行mapreduce作业时同时使用这两个jar?注意:我已经引用了答案Howtospecifymultiplejarfilesinoozie但是,这并不能解决我的问题

hadoop - 使用零 Reducers 时,我能否从 Hadoop 获得单独排序的 Mapper 输出?

我在Hadoop0.20中有一份工作需要一次处理一个大文件。(这是一个预处理步骤,可将面向文件的数据转换为更适合MapReduce的更清晰、基于行的格式。)我不介意我有多少个输出文件,但每个Map的输出最多只能在一个输出文件中,并且每个输出文件都必须排序。如果我使用numReducers=0运行,它运行得很快,并且每个Mapper写出自己的输出文件,这很好-但文件没有排序。如果我添加一个reducer(普通Reducer.class),这会向单个文件添加一个不必要的全局排序步骤,这会花费很多小时(比Map任务花费的时间长得多)。如果我添加多个reducer,各个map作业的结果会混合在

java - 在 hadoop 中运行多个 MapReduce 作业

我想运行一系列mapreduce作业,所以最简单的解决方案似乎是jobcontroller。假设我有两份工作,job1和job2。我想在job1之后运行job2。好吧,它遇到了一些问题。经过数小时的调试,我将代码缩小为以下几行:JobConfjobConf1=newJobConf();JobConfjobConf2=newJobConf();System.out.println("***Point1");Jobjob1=newJob(jobConf1);System.out.println("***Point2");Jobjob2=newJob(jobConf2);System.out

python - Python 中的 Hadoop 流作业失败(不成功)

我正在尝试使用Python脚本在HadoopStreaming上运行Map-Reduce作业,但遇到与HadoopStreamingJobfailederrorinpython相同的错误但这些解决方案对我不起作用。当我运行“catsample.txt|./p1mapper.py|sort|./p1reducer.py”时我的脚本工作正常但是当我运行以下命令时:./bin/hadoopjarcontrib/streaming/hadoop-0.20.2-streaming.jar\-input"p1input/*"\-outputp1output\-mapper"pythonp1mapp

Hadoop 为 java.nio.ByteBuffer 的键类型抛出 ClassCastException

我正在为我的集群设置使用“hadoop-0.20.203.0rc1.tar.gz”。每当我设置job.setMapOutputKeyClass(ByteBuffer.class);并运行我得到以下异常的作业:12/01/1315:09:00INFOmapred.JobClient:TaskId:attempt_201201131428_0005_m_000001_2,Status:FAILEDjava.lang.ClassCastException:classjava.nio.ByteBufferatjava.lang.Class.asSubclass(Class.java:3018)

java - 调用 InputSplit 的 getClass() 时来自 Hadoop 的 JobSplitWriter/SerializationFactory 的 NullPointerException

我得到一个NullPointerException启动MapReduce时工作。它被SerializationFactory抛出的getSerializer()方法。我正在使用自定义InputSplit,InputFormat,RecordReader和MapReduce值类。我知道在我的InputFormat创建拆分后一段时间后会抛出错误类,但在创建RecordReader之前.据我所知,它是在“清理暂存区”消息之后直接发生的。通过检查堆栈跟踪指示的位置中的Hadoop源,看起来错误发生在getSerialization()时。收到空值Class指针。JobClient的writeN

hadoop: reducer 输出到另一个 reducer

如果我们想按相同的键(第一个reducer的输出)分组,是否可以将reducer的输出直接发送到另一个reducer有时在链接时我发现我正在使用一个映射器来读取输入并将其复制到输出。因此想知道idf是否可以将输出直接馈送到reducer 最佳答案 尽管您可以将map-reduce作业,甚至是映射器链接在一起;据我所知,您不能直接链接reducer。在内部,您可以使用ChainMapper链接映射器beforereducer和链映射器afterreducerwithChainReducer.