Mapreduce1

java - 为简单的 hadoop mapreduce 作业运行两个 mapper 和两个 reducer

我只是想更好地理解使用多个映射器和缩减器。我想使用一个简单的hadoopmapreduce字数统计作业来尝试这个。我想为这个字数统计作业运行两个映射器和两个缩减器。有吗我需要在配置文件上手动配置，还是仅对WordCount.java文件进行更改就足够了。我在单个节点上运行这个作业。我正在运行这个作业$hadoopjarjob.jarinputoutput我已经开始了$hadoopnamenode-format$hadoopnamenode$hadoopdatanodesbin$./yarn-daemon.sh启动资源管理器sbin$./yarn-daemon.sh启动资源管理器I'mr

sorting - MapReduce - 如何按值排序减少输出

如何按值对reducer输出进行降序排序？我正在开发一个必须返回HitTest门歌曲的应用程序。因此，歌曲必须按收听次数排序。我的应用程序以这种方式工作:Input:songname@userid@booleanMapOutput:songnameuseridReduceOutput:songnamenumber_of_listening知道怎么做吗？最佳答案最好的方法是使用您的第一个MapReduce作业的输出作为另一个作业的输入，我称之为Sort.java。由于HadoopMap函数具有适当的排序算法，您甚至不需要reduc

MapReduce sorting section LongWritable IntWritable hadoop

java - 记录 MapReduce 作业的标准做法

我正在尝试寻找记录MapReduce作业的最佳方法。我在我的其他Java应用程序中使用slf4j和log4jappender，但是由于MapReduce作业以分布式方式在集群中运行，我不知道应该在哪里设置日志文件位置，因为它是一个访问受限的共享集群特权。是否有记录MapReduce作业的任何标准做法，以便您可以在作业完成后轻松查看整个集群的日志？最佳答案您可以使用log4j，它是hadoop使用的默认日志记录框架。因此，在您的MapReduce应用程序中，您可以执行如下操作:importorg.apache.log4j.Logg

MapReduce 做法 section code java hadoop hadoop2 mapr

java - 在 Appengine 上使用 mapreduce 对 200 万条记录进行重复数据删除时性能不佳

我有大约200万条记录，每个记录大约有4个字符串字段，需要检查重复项。更具体地说，我将姓名、电话、地址和父亲姓名作为字段，我必须使用所有这些字段和其余数据来检查重复数据删除。需要将生成的唯一记录记录到数据库中。我已经能够实现mapreduce，迭代所有记录。任务速率设置为100/s，存储桶大小设置为100。启用计费。目前，一切正常，但性能非常非常慢。我已经能够在6小时内完成10,000条记录的测试数据集中的1000条记录的重复数据删除处理。java中目前的设计是:在每次map迭代中，我将当前记录与以前的记录Previousrecord是数据库中的单个记录，其作用类似于全局记录我用每个m

万条 Appengine section 的流式 java google-app-engine hadoop mapreduce deduplication

hadoop - 在oozie中覆盖hadoop的mapreduce.fileoutputcommitter.marksuccessfuljobs

mapreduce.fileoutputcommitter.marksuccessfuljobsfalse我想将上述属性重写为true。对于集群上的其余作业，该属性需要为false，但在我的oozie工作流中，我需要hadoop在作业完成后在输出目录中创建_SUCCESS文件。它是写入输出的工作流中的配置单元操作。请帮忙。最佳答案不幸的是，Hive通过设置它自己的NullOutputComitter覆盖了这个能力:conf.setOutputCommitter(NullOutputCommitter.class);看src/sh

hadoop fileoutputcommitter section code mapreduce hive oozie

hadoop - 控制和监视 YARN 中同时进行的 mapreduce 任务的数量

我在少数功能强大的机器上部署了一个Hadoop2.2集群。我有使用YARN作为框架的限制，我不是很熟悉。如何控制并行运行的实际map和reduce任务的数量？每台机器都有很多CPU内核(12-32)和足够的RAM。我想最大限度地利用它们。我如何监控我的设置是否确实提高了机器的利用率？在哪里可以查看在给定作业中使用了多少个内核(线程、进程)？在此先感谢您帮助我熔化这些机器:) 最佳答案 1.在MR1中，mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.task

mapreduce hadoop section YARN http hadoop-yarn

hadoop - mapreduce.task.io.sort.mb 的最大值是多少？

当我设置mapreduce.task.io.sort.mb=100000时。出现以下异常。java.lang.Exception:java.io.IOException:Invalid"mapreduce.task.io.sort.mb":100000mapreduce.task.io.sort.mb的最大值是多少？最佳答案我知道这个问题很老了，但是对于那些提出相同问题的人，您可以查看有关此值被上限的一些错误http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.1.3/bk_re

mapreduce hadoop section configuration

java - 运行 Hadoop MapReduce 作业时如何获取文件名/文件内容作为 MAP 的键/值输入？

我正在创建一个程序来分析PDF、DOC和DOCX文件。这些文件存储在HDFS中。当我开始我的MapReduce作业时，我希望map函数将文件名作为键，将二进制内容作为值。然后我想创建一个流阅读器，我可以将其传递给PDF解析器库。如何实现映射阶段的键/值对是文件名/文件内容？我正在使用Hadoop0.20.2这是启Action业的旧代码:publicstaticvoidmain(String[]args)throwsException{JobConfconf=newJobConf(PdfReader.class);conf.setJobName("pdfreader");conf.set

MapReduce Hadoop section conf class java distributed-system

java - 在 Mapreduce 中设置 job.setInputFormatClass 时出错

我正在运行一个MapReduce程序。我需要以KEYVALUE对的格式提供输入文本文件。这样如果我写job.setInputFormatClass(KeyValueTextInputFormat.class);eclipse编译器显示错误，我无法使用InputFormat。无论如何我需要将输入的格式设置为KeyValueTextInputFormat我该怎么做呢？？有什么想法吗？？？？？我的代码是`packagecom.iot.dictionary;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;

中设时出 KeyValueTextInputFormat import apache java hadoop mapreduce

hadoop - MapReduce 或 Spark 用于 Hadoop 上的批处理？

我知道MapReduce是在Hadoop上进行批处理的一个很好的框架。但是，与MapReduce相比，Spark还可以用作Hadoop上的批处理框架，提供可伸缩性、容错性和高性能。Cloudera、Hortonworks和MapR也开始使用YARN支持SparkonHadoop。但是，很多公司仍然在Hadoop上使用MapReduceFramework来进行批处理，而不是Spark。所以，我想了解Spark目前在Hadoop上用作批处理框架的挑战是什么？有什么想法吗？最佳答案对于迭代算法，Spark比mapreduce快一个数量

MapReduce hadoop Spark section batch-processing apache-spark

153 154 155156157 158 159