Iterator-reducer

hadoop - 在 postgres 中插入数据时，Reduce 代码随机卡住

我们有一个用Java编写的mapreduce代码，它读取多个小文件(比如10k+)，在驱动程序中转换为单个avro文件，reducer将一堆减少的记录插入到postgres数据库中。这个过程每小时发生一次。但是有多个mapreduce作业同时运行，处理不同的avro文件并为每个作业打开不同的数据库连接。所以有时(非常随机)所有任务都卡在reducer阶段，但出现以下异常-"C2CompilerThread0"daemonprio=10tid=0x00007f78701ae000nid=0x6db5waitingoncondition[0x0000000000000000]java.la

卡住 postgres java lang postgresql hadoop mapreduce postgresql-9.1

hadoop - 如何将reduce分区放入hadoop集群中设计的机器中？

例如:减少结果:part-00000,part-00001...part-00008,集群有3个数据节点，我想将part-00000、part-00001和part-00002放到slave0将part-00003、part-00004和part-00005放到slave1将part-00006、part-00007和part-00008放到slave2我该怎么做？最佳答案不是这样的。HDFS中的文件不存储在任何特定的数据节点中。每个文件由block组成，每个block被复制到多个节点(默认为3个)。所以每个文件实际上存储在不同

中设 hadoop code part section mapreduce hdfs reduce partition

java - Hadoop map reduce 忽略我的 java 代码中定义的 xmx 内存

我有一个javamap-reduce代码，我在其中使用了以下几行来定义内存堆大小:conf.set("mapreduce.map.java.opts","-Xms3g");conf.set("mapreduce.map.java.opts","-Xmx3g");conf.set("mapreduce.reduce.java.opts","-Xmx2g");但是当我运行我的代码时，它仍然使用2g物理内存并且无法运行一些map-reduce任务。我什至更改了yarnxml文件中的内存限制，但仍然出现相同的错误。你能帮我弄清楚问题出在哪里吗？为什么它会忽略我的内存定义？

java Hadoop section 34 mapreduce

java - Hadoop map reduce hipi.mapreduce.BinaryOutputFormat 未找到

尝试对HIB中的图像运行Facecount作业时，出现此异常。我在类路径中包含了hipi-2.1.0.jar。Exitcode:1Stacktrace:ExitCodeExceptionexitCode=1:atorg.apache.hadoop.util.Shell.runCommand(Shell.java:576)atorg.apache.hadoop.util.Shell.run(Shell.java:487)atorg.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:753)在hadoop作业日

BinaryOutputFormat mapreduce MRAppMaster hadoop java opencv hipi

hadoop - 在 map-reduce 中解析消息时 hl7 消息编码错误

我正在尝试通过Hapi在map-reduce函数中解析HL7消息，我在运行maptask时遇到了EncodingNotSupportedException。我试图将\n或\r添加到每个段的末尾，但我遇到了同样的错误。该消息保存在文本文件中，并上传到HDFS。我需要添加一些东西这是我的代码Stringv=value.toString();InputStreamis=newStringBufferInputStream(v);is=newBufferedInputStream(is);Hl7InputStreamMessageStringIteratoriter=newHl7InputSt

map-reduce hadoop section code Hl7InputStreamMessageStringIterat mapreduce hl7 hapi hl7-v2

hadoop - 确定 Hive "order by"子句中的 reducer 数量

我有一个2.6MB大小的CSV文件。我创建了一个配置单元表并在其中加载了csv文件。现在，如果我将查询编写为“select*fromabcorderbya;”,mapreduce使用了1个reducer。它是如何识别reducer的数量为1的呢？它使用默认值“1”还是其他什么？一般来说，hive如何决定在“orderby”、“sortby”或“groupby”子句中使用多少个reducer？最佳答案它与数据大小有关，默认为每1GB1个，由此属性调节:hive.exec.reducers.bytes.per.reducer如果你想

amp reducer section code hadoop hive

java - 添加 hapi 3rd-party lib (jars) 到 map-reduce

我正在尝试将hapijar添加到map-reduce任务中。我在/home/training/lib下有所有需要的jar我制作了包含我需要并运行的所有hapijar的fatjarhadoopjarmp.jarstubs.MsgParserinfileoutfile-libjars/home/training/lib我懂了Usage:MsgParser[genericoptions]在我的驱动程序中，我实现了ToolRunner更多信息:我在CloudEra发行版上运行。我只需要映射器中的jarmp.jar是从Eclipse导出的jar我的hadoopjar命令是否需要修改或是否有任何其

map-reduce 3rd-party section jar strong java hadoop mapreduce cloudera hapi

hadoop - 当CouchDB 1.6是单服务器数据库时，它如何固有地利用Map Reduce的优势

我是沙发数据库的新手，在阅读CouchDB1.6的文档时，我知道它是单服务器DB，所以我想知道map减少如何固有地利用它。如果我需要扩展该数据库，那么我是否需要放置更多RAID硬件，它将在HDFS等商用硬件上运行吗？我知道长沙发db2.0计划引入集群功能，但是无法获得有关此文件的适当文档。您能帮我了解如何准确地在内部存储和访问文件。非常感谢您的帮助。最佳答案我认为您的问题是这样的:“MapReduce是……集群上的并行分布式算法。”[从Wikipedia上的MapReducearticle缩短]但是CouchDB1.x不是集群数

地利固有 CouchDB br noreferrer hadoop mapreduce

hadoop - reducer 类不能启动吗？在 reducer 日志中看不到 System.out.println 语句

我有一个驱动程序类、映射器类和reducer类。mapreduce作业运行良好。但是期望的结果并没有出现。我已将System.out.println语句放入reducer中。我查看了mapper和reducer的日志。我放在映射器中的System.out.println语句可以在日志中看到，但在日志中看不到reducer中的println语句。reducer有没有可能根本就没有启动？这是来自reducer的日志。最佳答案我假设这个问题是基于你之前问题中的代码:mapreducecompositeKeysample-doesn't

reducer 中看 section code hadoop mapreduce bigdata

hadoop - Map Reduce 作业中的 NullPointerException

我正在尝试使用javaapi批量上传到Hbase。调用Mapper类时出现以下异常。这是我在调试我的驱动程序代码时发现的。当调试器试图命中映射器代码时会出现此错误。我的Hfile已创建但无法加载到Hbase16/08/1004:09:56INFOmapred.Task:UsingResourceCalculatorPlugin:org.apache.hadoop.util.LinuxResourceCalculatorPlugin@7363c83916/08/1004:09:56INFOmapred.MapTask:Processingsplit:file:/home/cloudera

NullPointerException hadoop apache mapred mapreduce hbase

109 110 111112113 114 115