作业队

hadoop - Mapreduce 作业未运行

在伪分布式模式下安装和配置我的hadoop2.7.1之后，一切都在运行，正如您在中看到的~$jps4825Jps4345NameNode4788JobHistoryServer4496ResourceManager比起我运行mapreduce的例子hadoopjar/usr/local/hadoop-2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jarpi210执行卡住(？)NumberofMaps=2SamplesperMap=1015/07/1408:40:09WARNutil.NativeCodeLoad

java - 为什么作业链在 mapreduce 中不起作用？

我创建了两个作业，我想将它们链接起来，以便在前一个作业完成后立即执行一个作业。所以我写了下面的代码。但据我观察，job1已正确完成，而job2似乎从未执行过。publicclassSimpletaskextendsConfiguredimplementsTool{publicstaticenumFileCounters{COUNT;}publicstaticclassTokenizerMapperextendsMapper{publicvoidmap(Objectkey,Textvalue,Contextcontext)throwsIOException,InterruptedExce

mapreduce java class IntWritable Text hadoop

hadoop - Spark 作业中的 Kryo 序列化错误

我想在Spark作业中使用Kryo序列化。publicclassSerializeTest{publicstaticclassTotoimplementsSerializable{privatestaticfinallongserialVersionUID=6369241181075151871L;privateStringa;publicStringgetA(){returna;}publicvoidsetA(Stringa){this.a=a;}}privatestaticfinalPairFunctionWRITABLE_CONVERTOR=newPairFunction(){p

hadoop Spark apache SequenceFile java apache-spark kryo

hadoop - 具有 HAR 文件输入的 MapReduce 作业

我创建了一个HAR包含多个小输入文件的文件。对于使用单个输入文件运行mapreduce作业，这将是命令:hadoopjar但如果万一以上是一个HAR文件将是什么命令使得HAR的所有内容文件被视为输入？最佳答案如果输入是HAR文件，则必须在输入位置给出以下内容har:///hdfspathtoharfile由于hadoop文件将作为文件系统公开，mapreduce将能够使用hadoop文件中的所有文件作为输入。关于hadoop-具有HAR文件输入的MapReduce作业，我们在Sta

MapReduce hadoop section code hdfs har

hadoop - 如何在运行 MR 作业时找到存储和读取特定文件的数据节点？

我有9个文件，每个文件的大小都等于集群的BlockLength，存储在hadoop中。我需要获取文件所在的数据节点的地址。复制因子为3。是否有任何hadoopAPI可以执行此操作或任何其他可能的方式？最佳答案查找文件的block和数据节点的命令如下所示hadoopfsck/user/tom/part-00007-files-blocks-racks这将显示以下结果/user/tom/part-0000725582428bytes,1block(s):OK0.blk_-3724870485760122836_1035len=255

何在 hadoop section default-rack mapreduce cluster-computing

hadoop - 映射减少作业 : Protobuf related error

我在运行MapReduce作业时遇到错误:Exceptioninthread"main"java.lang.NoSuchMethodError:org.apache.hadoop.yarn.proto.YarnProtos$LocalResourceProto.hashLong(J)Iatorg.apache.hadoop.yarn.proto.YarnProtos$LocalResourceProto.hashCode(YarnProtos.java:11655)atorg.apache.hadoop.yarn.api.records.impl.pb.LocalResourcePBI

java - 即使发生 IOException，作业也成功完成

我在运行GridMix时在我的主节点上收到各种IOException，我想知道这是否是我应该真正关心的事情，或者它是否是我的工作成功完成时的短暂事情:IOException:BadconnectackwithfirstBadLink:\java.io.IOException:BadresponseERRORforblockBP-49483579-10.0.1.190-1449960324681:blk_1073746606_5783fromdatanode10.0.1.192:50010atorg.apache.hadoop.hdfs.DFSOutputStream$DataStrea

IOException 即使 code section java hadoop hdfs hadoop-yarn

Hadoop MR2 作业统计

我的机器上安装了Hadoop2.6.0版。hduser@vagrant:/usr/local/hadoop$hadoopversionHadoop2.6.0此外，我使用bashsbin/start-dfs.sh启动了hadoop集群，并看到Datanode、namenode和secondarynode正在运行。hduser@vagrant:/usr/local/hadoop$jps2627DataNode2503NameNode3634Jps2825SecondaryNameNode我还能够提交作业并能够毫无问题地查看输出。hadoopjar./share/hadoop/mapredu

Hadoop MR2 section code

hadoop - 如何在 jpmml 级联中传递 Hadoop 作业队列名称？

我正在尝试使用此项目中提供的jpmml级联库中的级联框架执行pmml模型https://github.com/jpmml/jpmml-cascading我已完成所有步骤，并能够使用mvncleaninstall命令生成example-1.2-SNAPSHOT-job.jar。但是，当我使用以下命令执行同一个jar时:hadoopjarexample-1.2-SNAPSHOT-job.jar/tmp/cascading/model.pmmlfile:///tmp/cascading/input.csvfile:///tmp/cascading/output由于无权在默认DEFAULT队列

联中何在 code hadoop strong cascading pmml

hadoop - 提交 hadoop-streaming 作业 : yarn or hadoop?

使用yarnjar命令和使用hadoopjar命令提交hadoop-streaming作业有什么区别？这是来自currentdocumentation:hadoopjarhadoop-streaming-2.7.1.jar\-Dmapreduce.job.reduces=2\-inputmyInputDirs\-outputmyOutputDir\-mapper/bin/cat\-reducer/usr/bin/wc但是这个命令也可以用:yarnjarhadoop-streaming-2.7.1.jar\-Dmapreduce.job.reduces=2\-inputmyInputDi

hadoop hadoop-streaming code section hadoop-yarn

174 175 176177178 179 180