草庐IT

作业队

全部标签

hadoop - Oozie 协调员。如何将过去的数据提供给 mapreduce 作业?

我正在尝试创建Ooize协调器。问题是我已经有了等待使用oozie处理的暂存数据。想象一下这样的情况。当前日期是:01.03.2013(2013年3月1日)我确实有这些输入目录:/staging/landing/source/xvlr/2013/02/01/00(2013年二月一日,一天的第一个小时)/staging/landing/source/xvlr/2013/02/01/01/staging/landing/source/xvlr/2013/02/01/02/staging/landing/source/xvlr/2013/02/01/03/staging/landing/so

hadoop - 以不同用户身份运行 map reduce 作业

我有一个与Hadoop交互的Web应用程序。(Clouderacdh3u6)特定的用户操作应该在集群中启动一个新的MapReduce作业。该集群不是安全集群,但它使用简单的组身份验证-因此如果我以自己的身份通过ssh访问它,我可以从命令行启动MR作业。在Web应用程序中,我使用ToolRunner来运行我的作业:MyMapReduceWrapperClassmr=newMyMapReduceWrapperClass();ToolRunner.run(mr,null);//insidetherunimplementationofmywrapperclass:Jobjob=newJob(c

java - Yarn MapReduce 作业死于奇怪的消息

我有Hadoop-Yarn集群,当我尝试运行hadoop示例时,我在容器日志中收到奇怪的错误消息:Error:Couldnotfindorloadmainclass1638我的Java版本是:javaversion"1.7.0_51"Java(TM)SERuntimeEnvironment(build1.7.0_51-b13)JavaHotSpot(TM)64-BitServerVM(build24.51-b03,mixedmode)在master上运行服务:593NodeManager373SecondaryNameNode745JobHistoryServer507Resource

scala - 作为 Spark 作业提交时 Spark RDD 映射中的 NullPointerException

我们正在尝试提交一个spark作业(spark2.0、hadoop2.7.2),但出于某种原因,我们在EMR中收到了一个相当神秘的NPE。一切都像scala程序一样运行良好,所以我们不确定是什么导致了这个问题。这是堆栈跟踪:18:02:55,271ERRORUtils:91-Abortingtaskjava.lang.NullPointerExceptionatorg.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIterator.agg_doAggregateWithKeys$(UnknownSource)

python - Spark - 为我的 Spark 作业分配了多少执行器和内核

Spark架构完全围绕执行器和内核的概念展开。我想看看在集群中运行的spark应用程序实际上有多少执行程序和内核在运行。我试图在我的应用程序中使用下面的代码片段,但没有成功。valconf=newSparkConf().setAppName("ExecutorTestJob")valsc=newSparkContext(conf)conf.get("spark.executor.instances")conf.get("spark.executor.cores")有没有办法使用SparkContext对象或SparkConf对象等获取这些值。 最佳答案

shell - 如何在oozie中执行并行作业

我在HDFS中有一个shell脚本。我已使用以下工作流程在oozie中安排此脚本。工作流程:Actionfailed,errormessage[${wf:errorMessage(wf:lastErrorNode())}]${jobTracker}${nameNode}shell.sh${input_file}HADOOP_USER_NAME=${wf:user()}/user/xxxx/shell_script/lib/shell.sh#shell.sh/user/xxxx/args/${input_file}#${input_file}工作性质nameNode=xxxxxxxxxx

hadoop - 仅为 Hadoop 作业输出关闭复制

有没有办法将特定MapReduce作业输出的复制因子设置为不同于集群的其余部分(比如1)?我希望我的主要数据集是3x副本(目前是这样),但是我的一些作业的输出会很快移出集群并最终被丢弃,因此不需要复制并且我可以使用空间.我可以使用setrep但我认为我只能在事后才这样做。 最佳答案 当你上传一个文件时,你可以通过传递来覆盖DFS默认的复制因子-Ddfs.replication=1当您调用作业时,这应该也能正常工作。 关于hadoop-仅为Hadoop作业输出关闭复制,我们在StackOv

hadoop - 为流作业指定自己的输入格式

我定义了我自己的输入格式如下,以防止文件拆分:importorg.apache.hadoop.fs.*;importorg.apache.hadoop.mapred.TextInputFormat;publicclassNSTextInputFormatextendsTextInputFormat{@OverrideprotectedbooleanisSplitable(FileSystemfs,Pathfile){returnfalse;}}我使用Eclipse将其编译成类NSTextInputFormat.class。我将此类复制到启Action业的客户端。我使用以下命令启Acti

Hadoop 作业跟踪器只能从本地主机访问

我正在设置Hadoop(0.20.2)。对于初学者,我只想让它在一台机器上运行——我可能在某个时候需要一个集群,但当我到达那里时我会担心这个。我已经到了我的客户端代码可以连接到作业跟踪器并开始作业的地步,但是有一个问题:作业跟踪器只能从运行它的同一台机器上访问。我实际上用nmap进行了端口扫描,它显示端口9001在从Hadoop机器扫描时打开,而在从其他地方扫描时关闭。我在三台机器(一台Mac、一台Ubuntu和一台在VirtualBox中运行的UbuntuVM)上试过这个,结果是一样的。他们都没有设置任何防火墙,所以我很确定这是一个Hadoop问题。有什么建议吗?

configuration - 如何使用 CDH4 和 Yarn 查看我的 Hadoop 作业历史记录和日志?

我用Yarn下载了Hadoop的CDH4tar,作业运行良好,但我不知道从哪里查看我的作业日志。在MRv1中,我只是访问了JobTracker网络应用程序,它具有工作历史记录。也可以从这里访问单个作业的日志,或者转到logs/userlogs目录。在我的新Yarn设置中(仅在单台计算机上运行),我有日志目录,但没有日志/用户日志文件夹。当我转到ResourceManager网页localhost:8088时,有一个“所有应用程序”部分,但此处没有显示任何条目。当我转到JobHistory网页时,localhost:19888,没有列出任何工作。我想知道是否存在配置问题。这是我的yarn