草庐IT

reducer-combiner

全部标签

hadoop - 在 map-reduce 中解析消息时 hl7 消息编码错误

我正在尝试通过Hapi在map-reduce函数中解析HL7消息,我在运行maptask时遇到了EncodingNotSupportedException。我试图将\n或\r添加到每个段的末尾,但我遇到了同样的错误。该消息保存在文本文件中,并上传到HDFS。我需要添加一些东西这是我的代码Stringv=value.toString();InputStreamis=newStringBufferInputStream(v);is=newBufferedInputStream(is);Hl7InputStreamMessageStringIteratoriter=newHl7InputSt

hadoop - 确定 Hive "order by"子句中的 reducer 数量

我有一个2.6MB大小的CSV文件。我创建了一个配置单元表并在其中加载了csv文件。现在,如果我将查询编写为“select*fromabcorderbya;”,mapreduce使用了1个reducer。它是如何识别reducer的数量为1的呢?它使用默认值“1”还是其他什么?一般来说,hive如何决定在“orderby”、“sortby”或“groupby”子句中使用多少个reducer? 最佳答案 它与数据大小有关,默认为每1GB1个,由此属性调节:hive.exec.reducers.bytes.per.reducer如果你想

java - 添加 hapi 3rd-party lib (jars) 到 map-reduce

我正在尝试将hapijar添加到map-reduce任务中。我在/home/training/lib下有所有需要的jar我制作了包含我需要并运行的所有hapijar的fatjarhadoopjarmp.jarstubs.MsgParserinfileoutfile-libjars/home/training/lib我懂了Usage:MsgParser[genericoptions]在我的驱动程序中,我实现了ToolRunner更多信息:我在CloudEra发行版上运行。我只需要映射器中的jarmp.jar是从Eclipse导出的jar我的hadoopjar命令是否需要修改或是否有任何其

hadoop - 当CouchDB 1.6是单服务器数据库时,它如何固有地利用Map Reduce的优势

我是沙发数据库的新手,在阅读CouchDB1.6的文档时,我知道它是单服务器DB,所以我想知道map减少如何固有地利用它。如果我需要扩展该数据库,那么我是否需要放置更多RAID硬件,它将在HDFS等商用硬件上运行吗?我知道长沙发db2.0计划引入集群功能,但是无法获得有关此文件的适当文档。您能帮我了解如何准确地在内部存储和访问文件。非常感谢您的帮助。 最佳答案 我认为您的问题是这样的:“MapReduce是……集群上的并行分布式算法。”[从Wikipedia上的MapReducearticle缩短]但是CouchDB1.x不是集群数

hadoop - reducer 类不能启动吗?在 reducer 日志中看不到 System.out.println 语句

我有一个驱动程序类、映射器类和reducer类。mapreduce作业运行良好。但是期望的结果并没有出现。我已将System.out.println语句放入reducer中。我查看了mapper和reducer的日志。我放在映射器中的System.out.println语句可以在日志中看到,但在日志中看不到reducer中的println语句。reducer有没有可能根本就没有启动?这是来自reducer的日志。 最佳答案 我假设这个问题是基于你之前问题中的代码:mapreducecompositeKeysample-doesn't

hadoop - Map Reduce 作业中的 NullPointerException

我正在尝试使用javaapi批量上传到Hbase。调用Mapper类时出现以下异常。这是我在调试我的驱动程序代码时发现的。当调试器试图命中映射器代码时会出现此错误。我的Hfile已创建但无法加载到Hbase16/08/1004:09:56INFOmapred.Task:UsingResourceCalculatorPlugin:org.apache.hadoop.util.LinuxResourceCalculatorPlugin@7363c83916/08/1004:09:56INFOmapred.MapTask:Processingsplit:file:/home/cloudera

database - HDFS 中存储了什么以及为什么 Titan 执行查询时 map-reduce 计算速度如此之快?

我现在正在学习Titan。我在远程模式下将Titan与HBase结合使用。现在有三个问题让我很困惑。我在下面描述了它们:在TinkerPop3文档中,它说“任何OLAP操作的结果都存储在可通过hdfs访问的HDFS中。”但是现在我用Titan做OLTP,这种情况下HDFS里面存的是什么?当我们使用Titan连接HBase成功时(通过JavaIDE),我们可以看到在HBaseshell中创建的表并扫描内容。table中的content'column'是什么意思?它们代表图中的顶点id吗?当我测试Titan的性能时,我观察到查询速度比普通的map-reduce作业快。为什么泰坦能做到呢?在

hadoop - 使用 ChainReducer 抛出异常添加多个 Reducer

我已经阅读过与此相关的以前的帖子,但没有得到任何有意义的信息。我的用例是:汇总印象和点击数据将点击数据和未点击数据分开放在不同的文件中。我已经为此编写了映射器和缩减器,但缩减器的输出是包含点击和未点击的数据,并且它在同一个文件中。我想分离该数据,因此点击数据应存在于一个文件中,未点击数据应存在于其他文件中。错误:java.lang.IllegalStateException:Reducerhasbeenalreadysetatorg.apache.hadoop.mapreduce.lib.chain.Chain.checkReducerAlreadySet(Chain.java:662

hadoop - Partitioner 何时在 Map Reduce 中运行?

根据我的理解,mapper首先运行,然后是partitioner(如果有),然后是Reducer。但是如果我们使用Partitioner类,我不确定Sorting和Shuffling阶段何时运行? 最佳答案 近距离观察下图解释了完整的细节。从这个图中,您可以看到WordCount应用程序的映射器和缩减器组件适合的位置,以及它如何实现其目标。我们现在将更详细地研究这个系统。mapreduce流 关于hadoop-Partitioner何时在MapReduce中运行?,我们在StackOve

hadoop - 无法识别我的 Reducer 连接代码中的错误

我有两个数据集:用户:Bobby06AmsterdamSunny07RotterdamSteven08LiverpoolJamie23LiverpoolMacca91LiverpoolMessi10BarcelonaPique04BarcelonaSuarez09BarcelonaNeymar11brazilKlopp12Liverpool用户日志:SunnyNewPlayer12.23.14.421KloppCrazy88.33.44.555BobbyNewPlayer99.12.11.222StevenCaptain99.55.66.777JamieLocal88.99.33.23