草庐IT

reducing

全部标签

java - 缺少 Map/Combine/Reduce 的逻辑,关于如何跟踪某些东西

我正在尝试使用map/reducer来处理与我之前使用的不同的staff。我现在有一个这样的输入文件:1500002015pctechnology2154241998mousetechnology3784202010pentechnology484522000penstationery541252000penstationeryid、价格、年份、项目、类型我正在尝试做的是计算特定类型的特定商品的平均价格、每种类型以及该特定商品售出的每一年的平均价格。所以,举个例子,我开始为钢笔做这些东西。2000年钢笔的平均价格是多少?在我的示例中,有两种笔(用于PC的数字笔和标准笔),所以我喜欢这样

hadoop - Hadoop YARN 中的 Map 和 Reduce 任务内存设置

在YARN上的MapReduce应用程序中,Reduce任务的最大内存是否需要大于Map任务?就像下面...mapreduce.map.memory.mb=7mapreduce.reduce.memory.mb=14mapreduce.map.java.opts=0.8*7=5,6mapreduce.reduce.java.opts=0.8*2*7=11,2 最佳答案 没有硬性规定,reduce任务内存应该大于map任务内存。默认情况下,mapreduce.map.memory.mb和mapreduce.reduce.memory.

java - Map Reduce程序将多个xml文件合并为一个xml文件

我是Hindsight和Hadoopmapreduce概念的新手。我正在尝试使用mapreduce程序将多个XML文件合并为一个XML文件。我的目的是通过将文件名作为开始和结束标记添加和附加到文件名中,将每个XML文件合并到目标XML文件中。例如。以下XML应合并为如下所示的单个XML输入XML文件输出XML文件问题1:是否可以将一个XML文件映射到每个映射器并创建一个键值对,键作为文件名,值作为每个XML文件的前缀和附加文件名作为开始和结束标记以及缩减器进行合并所有XML到单个上下文并输出到如上所示的XML。问题2:如何在映射器代码中获取文件名作为键? 最

java - 使用单独的映射器、 reducer 和驱动程序类运行 MR 程序

maxtempmapper.java类:packagecom.hadoop.gskCodeBase.maxTemp;importjava.io.IOException;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Mapper;publicclassMaxTempMapperextendsMapper{privatestaticfinalintM

hadoop - 在 postgres 中插入数据时,Reduce 代码随机卡住

我们有一个用Java编写的mapreduce代码,它读取多个小文件(比如10k+),在驱动程序中转换为单个avro文件,reducer将一堆减少的记录插入到postgres数据库中。这个过程每小时发生一次。但是有多个mapreduce作业同时运行,处理不同的avro文件并为每个作业打开不同的数据库连接。所以有时(非常随机)所有任务都卡在reducer阶段,但出现以下异常-"C2CompilerThread0"daemonprio=10tid=0x00007f78701ae000nid=0x6db5waitingoncondition[0x0000000000000000]java.la

hadoop - 如何将reduce分区放入hadoop集群中设计的机器中?

例如:减少结果:part-00000,part-00001...part-00008,集群有3个数据节点,我想将part-00000、part-00001和part-00002放到slave0将part-00003、part-00004和part-00005放到slave1将part-00006、part-00007和part-00008放到slave2我该怎么做? 最佳答案 不是这样的。HDFS中的文件不存储在任何特定的数据节点中。每个文件由block组成,每个block被复制到多个节点(默认为3个)。所以每个文件实际上存储在不同

java - Hadoop map reduce 忽略我的 java 代码中定义的 xmx 内存

我有一个javamap-reduce代码,我在其中使用了以下几行来定义内存堆大小:conf.set("mapreduce.map.java.opts","-Xms3g");conf.set("mapreduce.map.java.opts","-Xmx3g");conf.set("mapreduce.reduce.java.opts","-Xmx2g");但是当我运行我的代码时,它仍然使用2g物理内存并且无法运行一些map-reduce任务。我什至更改了yarnxml文件中的内存限制,但仍然出现相同的错误。你能帮我弄清楚问题出在哪里吗?为什么它会忽略我的内存定义?

java - Hadoop map reduce hipi.mapreduce.BinaryOutputFormat 未找到

尝试对HIB中的图像运行Facecount作业时,出现此异常。我在类路径中包含了hipi-2.1.0.jar。Exitcode:1Stacktrace:ExitCodeExceptionexitCode=1:atorg.apache.hadoop.util.Shell.runCommand(Shell.java:576)atorg.apache.hadoop.util.Shell.run(Shell.java:487)atorg.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:753)在hadoop作业日

hadoop - 在 map-reduce 中解析消息时 hl7 消息编码错误

我正在尝试通过Hapi在map-reduce函数中解析HL7消息,我在运行maptask时遇到了EncodingNotSupportedException。我试图将\n或\r添加到每个段的末尾,但我遇到了同样的错误。该消息保存在文本文件中,并上传到HDFS。我需要添加一些东西这是我的代码Stringv=value.toString();InputStreamis=newStringBufferInputStream(v);is=newBufferedInputStream(is);Hl7InputStreamMessageStringIteratoriter=newHl7InputSt

hadoop - 确定 Hive "order by"子句中的 reducer 数量

我有一个2.6MB大小的CSV文件。我创建了一个配置单元表并在其中加载了csv文件。现在,如果我将查询编写为“select*fromabcorderbya;”,mapreduce使用了1个reducer。它是如何识别reducer的数量为1的呢?它使用默认值“1”还是其他什么?一般来说,hive如何决定在“orderby”、“sortby”或“groupby”子句中使用多少个reducer? 最佳答案 它与数据大小有关,默认为每1GB1个,由此属性调节:hive.exec.reducers.bytes.per.reducer如果你想