Mapred

java - 无法在 Oozie java 操作中设置 mapred.job.queue.name

我有一个运行紧迫作业的应用程序。我正在尝试将Oozie配置为使用Java操作运行此作业。我的操作如下，${jobTracker}${nameNode}mapred.job.queue.namelaunchercom.test.Main-Dmapred.output.compress=false-Dmapred.textoutputformat.separator=,-Dcrunch.disable.output.counters=trueActionfailed,errormessage[${wf:errorMessage(wf:lastErrorNode())}]但每次我运行Oozi

中设 java lt gt name hadoop oozie oozie-coordinator apache-crunch

hadoop - 我可以在不设置 mapred.reduce.tasks=1 的情况下在 map reduce 程序中找到最小值、最大值或平均值吗

我试图了解如何使用mapreduce找到一个非常大的文件的最小值、最大值和平均值。将reduce任务数设置为1是一个显而易见的解决方案，但对于非常大的文件来说并不是最佳选择。我也在考虑编写一个链式MR作业，但最终，你最终在最终作业中使用了一个reducer。有人可以阐明一些其他方法吗？谢谢最佳答案无论您的输入数据集有多大，我在这里使用1个reducer都没有发现任何问题。为此，您应该使用组合器功能，该功能应返回其本地Max、本地Min、本地TotalSum和Count并传递给单个reducer。这样，到达reducer的数据量非

reduce hadoop section reducer 数来 mapreduce

Hadoop 1.0.3 mapred.map.tasks 属性不工作

我正在使用hadoop1.0.3运行mapreduce作业。我有一个3节点集群设置。问题是我在/conf/mapred-site.xml中将属性mapred.map.tasks设置为20，但是当我运行该作业并使用以下网页访问集群信息时，hadoop仅显示6个maptask:50030。我已经在集群中的所有节点上编辑了上述配置文件。请帮忙。问候，莫辛最佳答案正如miguno所说，Hadoop只将mapred.map.tasks的值视为提示。也就是说，当我在使用MapReduce时，我能够通过指定最大计数来增加映射计数。这可能不适合

Hadoop mapred section map mapreduce

java - Accumulo MapReduce 作业因 java.io.EOFException 而失败，使用 AccumuloRowInputFormat

我所有的映射器都失败了，除了下面的异常(exception)。为了简洁起见，我只展示了最后一次失败。为什么会发生这种情况，我该如何解决？16/09/2117:01:57INFOmapred.JobClient:TaskId:attempt_201609151451_0044_m_000002_2,Status:FAILEDjava.io.EOFExceptionatjava.io.DataInputStream.readFully(DataInputStream.java:197)atjava.io.DataInputStream.readUTF(DataInputStream.jav

AccumuloRowInputFormat java mapred JobClient hadoop hadoop2 accumulo

hadoop - 太多获取失败 : Hadoop on cluster (x2)

上周左右我一直在使用Hadoop(试图掌握它)，尽管我已经能够设置多节点集群(2台机器:1台笔记本电脑和一台小型台式机)并检索结果，当我运行hadoop作业时，我似乎总是遇到“太多的获取失败”。一个示例输出(在一个简单的wordcount示例中)是:hadoop@ap200:/usr/local/hadoop$bin/hadoopjarhadoop-examples-0.20.203.0.jarwordcountsitasita-output3X11/05/2015:02:05INFOinput.FileInputFormat:Totalinputpathstoprocess:711/

cluster hadoop JobClient mapred INFO

hadoop - 为什么我们在 YARN 中配置 mapred.job.tracker？

我所知道的是引入了YARN，它取代了JobTracker和TaskTracker。我看过一些Hadoop2.6.0/2.7.0安装教程，他们将mapreduce.framework.name配置为yarn和mapred.job.tracker属性作为本地或主机:端口。mapred.job.tracker属性的描述是"ThehostandportthattheMapReducejobtrackerrunsat.If"local",thenjobsarerunin-processasasinglemapandreducetask."我的疑问是如果我们使用YARN为什么要配置它，我的意思是J

tracker hadoop code section mapreduce hadoop-yarn

hadoop - Amazon Elastic MapReduce 引导操作不工作

我已经尝试了以下引导操作组合来增加我的作业的堆大小，但它们似乎都不起作用:--mapred-key-valuemapred.child.java.opts=-Xmx1024m--mapred-key-valuemapred.child.ulimit=unlimited--mapred-key-valuemapred.map.child.java.opts=-Xmx1024m--mapred-key-valuemapred.map.child.ulimit=unlimited-mmapred.map.child.java.opts=-Xmx1024m-mmapred.map.child.

MapReduce Elastic mapred noreferrer section hadoop amazon-web-services elastic-map-reduce amazon-emr

ubuntu - 简单 Hadoop Map Reduce 中的错误

我尝试运行hadoopmap减少字数问题。据我所知，我正确地设置了HDFS和所有内容。当我执行它时，我在尝试运行一个简单的字数统计问题时遇到此错误。我是Hadoop的新手。任何解决此问题的帮助将不胜感激。13/06/1320:21:17INFOinput.FileInputFormat:Totalinputpathstoprocess:413/06/1320:21:17INFOutil.NativeCodeLoader:Loadedthenative-hadooplibrary13/06/1320:21:17WARNsnappy.LoadSnappy:Snappynativelibra

ubuntu Hadoop mapred 201306131940 TaskRunner mapreduce word-count

java - 我无法在以独立模式配置的 hadoop 上执行 map-reduce 作业

我正在尝试在我的计算机(MacOS10.7)上的本地文件系统(独立模式)上测试一个非常简单的hadoopmap-reduce作业。该作业采用.csv文件(data-01)并计算某些字段的出现次数。我下载了CDH4hadoop，运行作业，它似乎正常启动，但在处理完所有拆分后，我收到以下错误:13/03/1212:11:18INFOmapred.MapTask:Processingsplit:file:/path/in/data-01:9999220736+3355443213/03/1212:11:18INFOmapred.MapTask:Mapoutputcollectorclass=

map-reduce hadoop mapred MapTask java heap-memory

hadoop - s3distcp 在显示 100% 后挂起

为了尝试解决performanceissues使用AmazonEMR，我尝试使用s3distcp将文件从S3复制到我的EMR集群以进行本地处理。作为第一个测试，我从一个目录复制一天的数据，2160个文件，使用--groupBy选项将它们折叠成一个(或几个)文件。工作似乎运行得很好，向我展示了map/reduce进度到100%，但此时进程挂起并且再也没有回来。我怎样才能弄清楚发生了什么？源文件是存储在S3中的GZipped文本文件，每个大约30kb。这是一个普通的AmazonEMR集群，我从主节点的shell运行s3distcp。hadoop@ip-xxx:~$hadoopjar/hom

s3distcp 3distcp JobClient INFO mapred hadoop amazon-s3 hdfs amazon-emr

4 5 678 9 10