草庐IT

reducer-combiner

全部标签

java - MAP_OUTPUT_RECORDS 值在 reducer 类中不断变化

我正在尝试使用reducer类中的MAP_OUTPUT_RECORDS计数器来计算示例wordcount程序中的单词百分比。这里是reducer中setup()方法的代码:publicstaticclassIntSumReducerextendsReducer{privateFloatWritableresult=newFloatWritable();privatelongtotal=0;@Overridepublicvoidsetup(Contextcontext)throwsIOException,InterruptedException{total=context.getCoun

hadoop - Mapside Join 和 Reduce side join 可以有不同的 O/P

以下代码存在于PROD中并且每天运行,我正在尝试对其进行优化。我看到设置hive.auto.convert.join=FALSE;正在让它执行一个Reducesidejoin,它运行2.5小时并产生2324381条记录的行数。如果我设置hive.auto.convert.join=TRUE;然后它执行Map端连接并仅运行20分钟并生成5766529条记录的行数。我需要知道为什么行数不同,这是否正确?行数不同可以吗?我的印象是,无论发生哪个连接,O/P或查询都应该保持不变。在这两种情况下,源数据都保持不变,而且对于我正在更改的配置单元设置,所有其他条件都是相同的。INSERTOVERWR

java - 缺少 Map/Combine/Reduce 的逻辑,关于如何跟踪某些东西

我正在尝试使用map/reducer来处理与我之前使用的不同的staff。我现在有一个这样的输入文件:1500002015pctechnology2154241998mousetechnology3784202010pentechnology484522000penstationery541252000penstationeryid、价格、年份、项目、类型我正在尝试做的是计算特定类型的特定商品的平均价格、每种类型以及该特定商品售出的每一年的平均价格。所以,举个例子,我开始为钢笔做这些东西。2000年钢笔的平均价格是多少?在我的示例中,有两种笔(用于PC的数字笔和标准笔),所以我喜欢这样

hadoop - Hadoop YARN 中的 Map 和 Reduce 任务内存设置

在YARN上的MapReduce应用程序中,Reduce任务的最大内存是否需要大于Map任务?就像下面...mapreduce.map.memory.mb=7mapreduce.reduce.memory.mb=14mapreduce.map.java.opts=0.8*7=5,6mapreduce.reduce.java.opts=0.8*2*7=11,2 最佳答案 没有硬性规定,reduce任务内存应该大于map任务内存。默认情况下,mapreduce.map.memory.mb和mapreduce.reduce.memory.

java - Map Reduce程序将多个xml文件合并为一个xml文件

我是Hindsight和Hadoopmapreduce概念的新手。我正在尝试使用mapreduce程序将多个XML文件合并为一个XML文件。我的目的是通过将文件名作为开始和结束标记添加和附加到文件名中,将每个XML文件合并到目标XML文件中。例如。以下XML应合并为如下所示的单个XML输入XML文件输出XML文件问题1:是否可以将一个XML文件映射到每个映射器并创建一个键值对,键作为文件名,值作为每个XML文件的前缀和附加文件名作为开始和结束标记以及缩减器进行合并所有XML到单个上下文并输出到如上所示的XML。问题2:如何在映射器代码中获取文件名作为键? 最

java - 使用单独的映射器、 reducer 和驱动程序类运行 MR 程序

maxtempmapper.java类:packagecom.hadoop.gskCodeBase.maxTemp;importjava.io.IOException;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Mapper;publicclassMaxTempMapperextendsMapper{privatestaticfinalintM

hadoop - 在 postgres 中插入数据时,Reduce 代码随机卡住

我们有一个用Java编写的mapreduce代码,它读取多个小文件(比如10k+),在驱动程序中转换为单个avro文件,reducer将一堆减少的记录插入到postgres数据库中。这个过程每小时发生一次。但是有多个mapreduce作业同时运行,处理不同的avro文件并为每个作业打开不同的数据库连接。所以有时(非常随机)所有任务都卡在reducer阶段,但出现以下异常-"C2CompilerThread0"daemonprio=10tid=0x00007f78701ae000nid=0x6db5waitingoncondition[0x0000000000000000]java.la

hadoop - 如何将reduce分区放入hadoop集群中设计的机器中?

例如:减少结果:part-00000,part-00001...part-00008,集群有3个数据节点,我想将part-00000、part-00001和part-00002放到slave0将part-00003、part-00004和part-00005放到slave1将part-00006、part-00007和part-00008放到slave2我该怎么做? 最佳答案 不是这样的。HDFS中的文件不存储在任何特定的数据节点中。每个文件由block组成,每个block被复制到多个节点(默认为3个)。所以每个文件实际上存储在不同

java - Hadoop map reduce 忽略我的 java 代码中定义的 xmx 内存

我有一个javamap-reduce代码,我在其中使用了以下几行来定义内存堆大小:conf.set("mapreduce.map.java.opts","-Xms3g");conf.set("mapreduce.map.java.opts","-Xmx3g");conf.set("mapreduce.reduce.java.opts","-Xmx2g");但是当我运行我的代码时,它仍然使用2g物理内存并且无法运行一些map-reduce任务。我什至更改了yarnxml文件中的内存限制,但仍然出现相同的错误。你能帮我弄清楚问题出在哪里吗?为什么它会忽略我的内存定义?

java - Hadoop map reduce hipi.mapreduce.BinaryOutputFormat 未找到

尝试对HIB中的图像运行Facecount作业时,出现此异常。我在类路径中包含了hipi-2.1.0.jar。Exitcode:1Stacktrace:ExitCodeExceptionexitCode=1:atorg.apache.hadoop.util.Shell.runCommand(Shell.java:576)atorg.apache.hadoop.util.Shell.run(Shell.java:487)atorg.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:753)在hadoop作业日