草庐IT

reduce_dim

全部标签

hadoop - 设置 Pig 作业的最小 reducer 数量

我想为我的PigJob设置要启动的最小reducer数量。我尝试使用:SETdefault_parallel57;但是,这会强制所有作业都必须有57个reducer。是否有任何我可以设置的设置强制PigJob具有至少57个或更多的reducer。 最佳答案 我认为这是不可能的。您可以将default_parallel设置为57,对于那些您希望拥有更多reducer的操作,您可以使用PARALLEL指定更高的数量。我知道这并不是您想要的。 关于hadoop-设置Pig作业的最小reduce

hadoop - hdfs中的mapper和reducer运行时日志在哪里?

当我的mapreduce作业完成后,我可以转到作业历史url并在其中查看单个reducer/mapper日志。但是,我有很多映射器和缩减器,我需要将它们全部下载到我的本地驱动器以进行分析。我不知道这些日志文件在hdfs中的位置。你知道它在哪里吗? 最佳答案 我想您需要的是一个unix命令:yarnlogs-applicationId应用程序ID在MR应用程序启动期间显示,例如...15/07/1310:52:23INFOinput.FileInputFormat:Totalinputpathstoprocess:415/07/131

Hadoop eclipse 插件 2.6 - 在 : "Map/Reduce location status updater". java.lang.NullPointerException 期间发生内部错误

在EclipseHadoopplugin2.6中添加新的Hadoop位置,并尝试扩展位置时出现此错误Aninternalerroroccurredduring:"Map/Reducelocationstatusupdater".java.lang.NullPointerException请看下面的图片:http://i.imgur.com/029g7Vq.jpg.http://i.imgur.com/RIlEPH6.jpg.顺便说一句,我需要为“Map/Reduce(V2)MasterSection”配置hadoop中的哪一部分配置?对我来说,端口54333没有在Master服务器上监

java - 为什么我的输出文件名为 'part-r-xxxxx' ,即使我没有提到任何 reducer 类?

我正在使用Hadoop2.6.0的Apache发行版。我知道映射器的输出文件以每个映射器的“part-m-xxxxx”格式命名,而reducer的输出文件为每个reducer命名为“part-r-xxxxx”。我正在试验一个简单的Max-Temperature用例,并且我没有在我的作业配置中设置任何reducer类。既然如此,输出文件不应该命名为“part-m-xxxxx”吗?请在下面找到我的主要类(class):publicclassMaxTemperature{publicstaticvoidmain(String[]args)throwsException{Configurati

java - 如何调用 Hadoop Reducer?

假设我有一个如下所示的文本文件:a1b1c1d1a1Hadoop拆分文件并将记录发送到3个映射器:Mapper1:(a,1),(b,1)Mapper2:(c,1)Mapper3:(d,1),(a,1)如果我只有2个Reducer,在shuffle&sort之后,Reducers的输入如下:Reducer1:(a,[1,1])Reducer2:(b,[1]),(c,[1]),(d,[1])问题1:这是否意味着在Reducer1上,reduce方法将被调用EXACTLY1次,而在Reducer2上,reduce方法将被调用恰好调用了3次?问题2:对于我的reduce方法,publicvoi

hadoop - 在 MapReduce 中,reduce 任务与 reducer 有何不同

在Mapreduce中,Reduce任务与Reducer有何不同?reducetask和reducer有什么关系?Reducer是否执行reduce任务?非常感谢 最佳答案 Reducetask只是Reducer的一个实例。reduce任务的数量是可配置的。也可以通过在作业配置对象中设置属性mapred.reduce.tasks来指定或org.apache.hadoop.mapreduce.Job#setNumReduceTasks(intreducerCount);方法可以使用。 关于

hadoop - Reducer 在 Hadoop Mapreduce 中不工作

您好,我的Reducer没有打印出想要的结果,请查看代码。这是我的map功能publicvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsIOException,InterruptedException{Stringstr_line=value.toString();Detail_output1_column_array=str_line.split("\\"+tabSpace);Outputkey=Detail_output1_column_array[2];System.out.println(Outputkey);con

hadoop - 第一个使用 map 和 reducer 的 Hadoop 程序

我正在尝试编译我的第一个Hadoop程序。我有这样的输入文件:1548754512015LA89LP2474514512015LA89LP38784512015LA89LP4548752015LA89LP522122015LA89LP当我编译它时,我得到map100%、reducer0%和java.lang.Exception:java.util.NoSuchElementException由很多员工引起,包括:java.util.NoSuchElementExceptionjava.util.StringTokenizer.nextToken(StringTokenizer.java

hadoop - 如何在hadoop map reduce程序中的mapper代码中获取输入文件名

我编写了一个带有两个输入参数的驱动程序代码:args[0]和args[1]。我想使用args[0]即输入文件路径,作为我在映射器代码中的文件路径之一,这样我的缓冲区读取器就可以读取文件,如下所示:{publicvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsjava.io.IOException,InterruptedException{ArrayListal=newArrayList();ArrayListnl=newArrayList();Stringline=null;StringfilePath=args[0];St

hadoop - reducer 输出的每个键的值列表的排序

我是hadoop新手,对hadoop有点迷惑。在mapreduce作业中,reducer获取每个键的值列表。我想知道,每个键值的默认顺序是什么。与从映射器中写出的顺序相同。您能否更改每个键中值的顺序(例如asc或desc)。 最佳答案 与从映射器写出的顺序相同。-是单个映射器也是如此。但是,如果您的作业有多个映射器,您可能不会看到具有相同输入的两次运行的相同顺序,因为不同的映射器可能结束时间不同。您能否更改每个键中值的顺序(例如asc或desc)-是这是使用一种称为“二级排序”的技术完成的(您可以谷歌搜索更多相关信息)。