作业队_草庐IT

java - 在 hadoop 上用 java 运行基本的 mapreduce 作业

我刚刚开始使用linux/java/hadoop/EMR。我正在关注this整洁的书。任务是运行:bin/hadoopjarhadoop-cookbook-chapter1.jarchapter1.WordCountinputoutput这是我得到的回应:alex@HadoopMachine:/usr/share/hadoop$sudohadoopjarhadoop-cookbook-chapter1.jarchapter1.WordCountinputoutput13/05/0101:01:08WARNutil.NativeCodeLoader:Unabletoloadnative-

hadoop - 在 hue 中使用 oozie 工作流执行 MapReduce 作业给出错误的输出

我正在尝试使用hue中的oozie工作流执行MapReduce作业。当我提交作业时，oozie成功执行但我没有得到预期的输出。似乎从未调用过mapper或reducer。这是我的workflow.xml:${jobTracker}${nameNode}mapred.input.dir/user/root/jane/inputPathmapred.output.dir/user/root/jane/outputPath17mapred.mapper.classMapReduceGenerateReports.Mapmapred.reducer.classMapReduceGenerate

Hadoop 作业和任务跟踪器不工作

当我启动hadoopjobtracker和tasktracker时不工作。我正在使用两台计算机。master-furkanb@master192.168.2.135和slave-detay@slave192.168.2.250。xml和hosts文件在2台计算机上相同。我已经写到控制台jps了。JPS15568日元12126二级名称节点11812名称节点11934数据节点12314资源管理器我的主机文件/etc/主机127.0.0.1localhost127.0.1.1ubuntu.ubuntu-domainubuntu192.168.2.135master192.168.2.250s

hadoop - 基于数据量创建的 map 作业数

每当我们在任何数据量上运行任何map作业时，默认情况下都会创建一定数量的map作业。我想知道它背后的逻辑。ConsiderthesituationwhenIamtryingtouploaddataonHDFSorusingsqooptouploaddatatoHIVE是否有一些基于数据量的静态作业数量，例如数学公式。是否有一些智能系统可以根据有监督的聚类算法，它在每个Map中对数据进行分组？我想知道Hadoop究竟是如何知道numberifMapjobs的，我试图在互联网上找到答案，但我找不到确切的答案。最佳答案执行的map任务

Hadoop 多项作业 - 它不会退出 - 需要 Ctrl + C

我尝试运行多个作业，效果很好。问题是第三个作业何时完成执行。它返回预期的输出，但应用程序没有退出。每次我都要用ctrl+c来退出。这是我的main方法:publicstaticvoidmain(String[]args)throwsException{Configurationconf=newConfiguration();String[]otherArgs=newGenericOptionsParser(conf,args).getRemainingArgs();if(otherArgs.length!=2){System.err.println("Usage:app");Syste

java - MapReduce 作业在 map 部分后显示错误

Wordcount程序在map部分后失败。抛出以下错误。这是我在完成hadoop设置后尝试的第一个mapreduce程序。操作系统:Machadoop版本:1.2.1$HADOOP_OPTS="-Djava.security.krb5.realm=OX.AC.UK-Djava.security.krb5.kdc=kdc0.ox.ac.uk:kdc1.ox.ac.uk-Djava.net.preferIPv4Stack=true"Hadoop日志:14/06/1020:58:59WARNmapred.JobClient:UseGenericOptionsParserforparsingt

hadoop - 如何在 Hadoop 的 map-reduce 作业中通过自定义比较器对键进行排序？

考虑这个类:(来自Hadoop:权威指南第3版):importjava.io.*;importorg.apache.hadoop.io.*;publicclassTextPairimplementsWritableComparable{privateTextfirst;privateTextsecond;publicTextPair(){set(newText(),newText());}publicTextPair(Stringfirst,Stringsecond){set(newText(first),newText(second));}publicTextPair(Textfir

hadoop - 如何强制 hadoop 运行超过 1 个 Reduce 作业

我有一个5节点的Hadoop集群，其中2个节点专用于数据节点并且还运行tasktracker。我像这样运行我的hadoop作业sudo-uhdfshadoopjar/tmp/MyHadoopJob2.jarcom.abhi.MyHadoopJob2-Dmapred.reduce.tasks=2/sample/cite75_99.txt/output3作业成功运行，我可以看到正确的输出...但是现在当我转到门户网站时http://jt1.abhi.com:50030我能看见因此只有1个reduce作业正在运行。我之所以特别关注运行多个reduce作业，是因为我想确认即使在不同机器上运行不

java - 在 Hadoop 作业中输出键类或值类是强制性的还是可选的？

在Java中的单类MapReduce作业中，我是否必须设置输出键类或值类，或者它是可选的，如果未设置则有某种默认值适用？例如，如果我在我的工作中注释掉以下内容，它似乎运行良好，但我只是想确认我没有遗漏任何东西。有问题的行要注释掉...//job.setOutputKeyClass(Text.class);//job.setOutputValueClass(IntWritable.class);示例数据文件，我用逗号分隔并首先拉入最后一列...600000US00601,00601,"006015-DigitZCTA;0063-DigitZCTA",111028600000US00602

hadoop - Hive Map 减少了对选择列的作业说明

在Hive语句上映射减少作业当我在Hive中查询如下语句时hive>SELECT*FROMUSERSLIMIT100;它不会启动Mapreduce作业，因为我们正在从表中选择所有内容并限制它返回的记录数但是当我执行以下操作时hive>selectage,occupationfromuserslimit100;它实际上启动了Mapreduce作业？这是否意味着，应用列级投影需要MapreduceJob，？尽管我没有对其应用任何类型的过滤器。最佳答案每当您运行普通的“select*”时，都会创建一个获取任务，而不是一个mapredu