草庐IT

作业队

全部标签

java - Oozie 作业处于运行状态

我在hadoop2.2集群上安装了oozie4.0.1。之后,我尝试运行oozie作业(java操作)。一切似乎都很好:当我运行job.properties时,它会像往常一样给出作业ID。当我检查oozie控制台作业处于运行状态时。它运行java代码。然而,oozie突然停止并显示以下错误。ACTION[0000001-140526105244150-oozie-labu-W@javaMainAction]Exceptionincheck().Message[java.net.ConnectException:CallFromlabuser-VirtualBox/127.0.1.1to

scala - 在 Spark 作业中写入 HBase : a conundrum with existential types

我正在尝试编写一个应将其输出放入HBase的Spark作业。据我所知,正确的方法是使用saveAsHadoopDataset方法。在org.apache.spark.rdd.PairRDDFunctions-这需要我的RDD由对组成。方法saveAsHadoopDataset需要JobConf,这就是我要构建的。根据thislink,我必须在我的JobConf上设置一件事是输出格式(实际上没有它就不能工作),比如jobConfig.setOutputFormat(classOf[TableOutputFormat])问题是显然这不能编译,因为TableOutputFormat是通用的,

scala - 在 Yarn 集群上提交 Spark 作业

我现在已经为以下问题苦苦挣扎了2天多。我用Scala编写了一个基本的“HelloWorld”脚本:objectHelloextendsApp{println("WELCOMETOAFIRSTTESTWITHSCALACOMPILEDWITHSBTcountingfr.1:15withsleep1")valdata=1to15for(a然后我用SBT编译以获得JAR编译版本。然后我使用HDP2.2.4.2将所有内容传输到集群(这是在虚拟Linux机器上运行的Horthonworks沙箱)。我实际上能够使用yarn-client在集群上使用以下命令运行该作业:spark-submit--v

streaming - 如何设置 Hadoop Streaming 作业生成的输出文件的 block 大小?

看起来这应该很简单;我的集群上有一组文件,集群默认block大小为128MB。我有一个处理它们的流作业,我希望流作业创建的输出文件使用不同的block大小,特别是16MB。我认为以下方法可行:$HADOOP_HOME/bin/hadoopjar$HADOOP_HOME/contrib/streaming/hadoop-0.20.1+152-streaming.jar-Ddfs.block.size=16777216-Dmapred.job.name='LogProcessor'-Dmapred.reduce.tasks=5-Dmapred.output.compress=true-Dm

hadoop - 在 hadoop 多节点集群设置中创建从作业日志到 ${hadoop.tmp.dir} 的符号链接(symbolic link)失败

当我在3节点集群hadoop中运行简单的wordcount示例时,出现以下错误。我检查了必要文件夹的所有写/读权限。此错误不会停止mapreduce作业,但所有工作负载都转到集群中的一台机器上,其他两台机器在任务到达时给出与上述相同的错误。12/09/1309:38:37INFOmapred.JobClient:TaskId:attempt_201209121718_0006_m_000008_0,Status:FAILEDjava.lang.Throwable:ChildErroratorg.apache.hadoop.mapred.TaskRunner.run(TaskRunner

hadoop - 在 HDFS 上找不到 Oozie 作业配置应用程序目录

我在我的Linux机器上安装了Cloudera的伪分布式版本,并成功运行了一些简单的MapReduce示例。然而,我正试图让Oozie工作,但在尝试执行一个简单的工作流程时收到的错误让我完全困惑:tim@phocion:~$oozieversionOozieclientbuildversion:3.1.3-cdh4.0.1根据文档将预先打包的示例复制到HDFS并执行:tim@phocion:~$ooziejob-ooziehttp://phocion:11000/oozie-config/user/tim/examples/apps/map-reduce/job.properties-

在任务节点上完成作业之前删除 Hadoop 本地作业目录

我们的Hadoop集群遇到了一个奇怪的问题。我们注意到我们的一些作业因未找到文件异常而失败[见下文]。基本上,“attempt_*”目录中的文件和目录本身正在被删除,而任务仍在主机上运行。查看一些hadoop文档,我看到作业目录在获得KillJobAction时被清除,但是我不确定为什么它在作业仍在运行时被清除。我的问题是在作业运行时什么可以删除它?关于如何调试它的任何想法或指示都会有所帮助。谢谢!java.io.FileNotFoundException:/hadoop/mapred/local_data/taskTracker//jobcache/job_201211030344_

Hadoop/YARN 作业失败 - "exited with exitCode: -1000 due to: Could not find any valid local directory for nmPrivate..."

我正在尝试使用Hadoop、YARN和Accumulo运行MapReduce作业。我收到以下输出,但我无法找到问题所在。看起来是YARN问题,但我不确定它在寻找什么。我在$HADOOP_PREFIX/grid/hadoop/hdfs/yarn/logs位置有一个nmPrivate文件夹。这是它说找不到的文件夹吗?14/03/3108:48:46INFOmapreduce.Job:Jobjob_1395942264921_0023failedwithstateFAILEDdueto:Applicationapplication_1395942264921_0023failed2times

eclipse - 如何使用 Java -jar 命令运行 map reduce 作业

我使用Java编写了一个Mapreduce作业。设置配置Configurationconfiguration=newConfiguration();configuration.set("fs.defaultFS","hdfs://127.0.0.1:9000");configuration.set("mapreduce.job.tracker","localhost:54311");configuration.set("mapreduce.framework.name","yarn");configuration.set("yarn.resourcemanager.address","

c# - 提交 C# MapReduce 作业 Windows Azure HDInsight - 响应状态代码不表示成功 : 500 (Server Error)

我正在尝试将MapReduce作业提交到HDInsight集群。在我的工作中,我没有写减少部分,因为我不想减少任何东西。我想要做的就是解析每个文件名并将值附加到文件中的每一行。这样我就可以在文件中获得所需的所有数据。我的代码是usingMicrosoft.Hadoop.MapReduce;usingSystem;usingSystem.Collections.Generic;usingSystem.Linq;usingSystem.Text;usingSystem.Threading.Tasks;namespaceGetMetaDataFromFileName{classProgram