草庐IT

作业队

全部标签

hadoop - Mapreduce 作业未运行

在伪分布式模式下安装和配置我的hadoop2.7.1之后,一切都在运行,正如您在中看到的~$jps4825Jps4345NameNode4788JobHistoryServer4496ResourceManager比起我运行mapreduce的例子hadoopjar/usr/local/hadoop-2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jarpi210执行卡住(?)NumberofMaps=2SamplesperMap=1015/07/1408:40:09WARNutil.NativeCodeLoad

java - 为什么作业链在 mapreduce 中不起作用?

我创建了两个作业,我想将它们链接起来,以便在前一个作业完成后立即执行一个作业。所以我写了下面的代码。但据我观察,job1已正确完成,而job2似乎从未执行过。publicclassSimpletaskextendsConfiguredimplementsTool{publicstaticenumFileCounters{COUNT;}publicstaticclassTokenizerMapperextendsMapper{publicvoidmap(Objectkey,Textvalue,Contextcontext)throwsIOException,InterruptedExce

hadoop - Spark 作业中的 Kryo 序列化错误

我想在Spark作业中使用Kryo序列化。publicclassSerializeTest{publicstaticclassTotoimplementsSerializable{privatestaticfinallongserialVersionUID=6369241181075151871L;privateStringa;publicStringgetA(){returna;}publicvoidsetA(Stringa){this.a=a;}}privatestaticfinalPairFunctionWRITABLE_CONVERTOR=newPairFunction(){p

hadoop - 具有 HAR 文件输入的 MapReduce 作业

我创建了一个HAR包含多个小输入文件的文件。对于使用单个输入文件运行mapreduce作业,这将是命令:hadoopjar但如果万一以上是一个HAR文件将是什么命令使得HAR的所有内容文件被视为输入? 最佳答案 如果输入是HAR文件,则必须在输入位置给出以下内容har:///hdfspathtoharfile由于hadoop文件将作为文件系统公开,mapreduce将能够使用hadoop文件中的所有文件作为输入。 关于hadoop-具有HAR文件输入的MapReduce作业,我们在Sta

hadoop - 如何在运行 MR 作业时找到存储和读取特定文件的数据节点?

我有9个文件,每个文件的大小都等于集群的BlockLength,存储在hadoop中。我需要获取文件所在的数据节点的地址。复制因子为3。是否有任何hadoopAPI可以执行此操作或任何其他可能的方式? 最佳答案 查找文件的block和数据节点的命令如下所示hadoopfsck/user/tom/part-00007-files-blocks-racks这将显示以下结果/user/tom/part-0000725582428bytes,1block(s):OK0.blk_-3724870485760122836_1035len=255

hadoop - 映射减少作业 : Protobuf related error

我在运行MapReduce作业时遇到错误:Exceptioninthread"main"java.lang.NoSuchMethodError:org.apache.hadoop.yarn.proto.YarnProtos$LocalResourceProto.hashLong(J)Iatorg.apache.hadoop.yarn.proto.YarnProtos$LocalResourceProto.hashCode(YarnProtos.java:11655)atorg.apache.hadoop.yarn.api.records.impl.pb.LocalResourcePBI

java - 即使发生 IOException,作业也成功完成

我在运行GridMix时在我的主节点上收到各种IOException,我想知道这是否是我应该真正关心的事情,或者它是否是我的工作成功完成时的短暂事情:IOException:BadconnectackwithfirstBadLink:\java.io.IOException:BadresponseERRORforblockBP-49483579-10.0.1.190-1449960324681:blk_1073746606_5783fromdatanode10.0.1.192:50010atorg.apache.hadoop.hdfs.DFSOutputStream$DataStrea

Hadoop MR2 作业统计

我的机器上安装了Hadoop2.6.0版。hduser@vagrant:/usr/local/hadoop$hadoopversionHadoop2.6.0此外,我使用bashsbin/start-dfs.sh启动了hadoop集群,并看到Datanode、namenode和secondarynode正在运行。hduser@vagrant:/usr/local/hadoop$jps2627DataNode2503NameNode3634Jps2825SecondaryNameNode我还能够提交作业并能够毫无问题地查看输出。hadoopjar./share/hadoop/mapredu

hadoop - 如何在 jpmml 级联中传递 Hadoop 作业队列名称?

我正在尝试使用此项目中提供的jpmml级联库中的级联框架执行pmml模型https://github.com/jpmml/jpmml-cascading我已完成所有步骤,并能够使用mvncleaninstall命令生成example-1.2-SNAPSHOT-job.jar。但是,当我使用以下命令执行同一个jar时:hadoopjarexample-1.2-SNAPSHOT-job.jar/tmp/cascading/model.pmmlfile:///tmp/cascading/input.csvfile:///tmp/cascading/output由于无权在默认DEFAULT队列

hadoop - 提交 hadoop-streaming 作业 : yarn or hadoop?

使用yarnjar命令和使用hadoopjar命令提交hadoop-streaming作业有什么区别?这是来自currentdocumentation:hadoopjarhadoop-streaming-2.7.1.jar\-Dmapreduce.job.reduces=2\-inputmyInputDirs\-outputmyOutputDir\-mapper/bin/cat\-reducer/usr/bin/wc但是这个命令也可以用:yarnjarhadoop-streaming-2.7.1.jar\-Dmapreduce.job.reduces=2\-inputmyInputDi