草庐IT

Start-Job

全部标签

Python Hadoop 流错误 "ERROR streaming.StreamJob: Job not Successful!"和堆栈跟踪 : ExitCodeException exitCode=134

我正在尝试使用HadoopStreaming在Hadoop集群上运行python脚本以进行情绪分析。我在本地机器上运行的相同脚本正常运行并提供输出。要在本地机器上运行,我使用此命令。$cat/home/MB/analytics/Data/input/*|./new_mapper.py为了在hadoop集群上运行,我使用以下命令$hadoopjar/usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.5.0-mr1-cdh5.2.0.jar-mapper"python$PWD/new_mapper.py"-

scala - Spark : Executor Lost Failure (After adding groupBy job)

我正在尝试在Yarn客户端上运行Spark作业。我有两个节点,每个节点都有以下配置。我收到“ExecutorLostFailure(执行程序1丢失)”。我已经尝试了大部分Spark调优配置。我已经减少到一个执行器丢失,因为最初我遇到了6个执行器故障。这些是我的配置(我的spark-submit):HADOOP_USER_NAME=hdfsspark-submit--classgenkvs.CreateFieldMappings--masteryarn-client--driver-memory11g--executor-memory11G--total-executor-cores16

hadoop - master节点的"start-all.sh"和"start-dfs.sh"不启动slave节点服务?

我已经用我的从节点的主机名更新了Hadoop主节点上的/conf/slaves文件,但是我无法从主节点启动从节点。我必须单独启动从站,然后我的5节点集群启动并运行。如何使用主节点的单个命令启动整个集群?此外,SecondaryNameNode正在所有从节点上运行。那是问题吗?如果是这样,我怎样才能将它们从奴隶中移除?我认为一个集群中应该只有一个SecondaryNameNode和一个NameNode,对吗?谢谢! 最佳答案 在ApacheHadoop3.0中使用$HADOOP_HOME/etc/hadoop/workers文件每行添

hadoop - 亚马逊弹性 map 减少 : Listing job flows in command line tools Issue?

我是Amazon网络服务的新手,我正在尝试使用命令行界面工具在Amazonelasticmapreduce作业上运行作业流。我按照来自aws的开发人员指南的亚马逊开发人员指南中的步骤进行操作。但事情对我来说并不清楚。如果我执行命令./elastic-mapreduce--list列出作业流程。显示以下错误。/home/pdurai/Applications/elastic-mapreduce-cli/amazon/coral/httpdestinationhandler.rb:23:warning:elsewithoutrescueisuseless/usr/local/rbenv/v

hadoop - Apache Hadoop 中的 job.submit 和 job.waitForComplete 有什么区别?

我已经阅读了文档,所以我知道其中的区别。但我的问题是,如果我想在集群上并行运行多个Hadoop作业,使用.submit而不是.waitForComplete是否有任何风险?我主要使用ElasticMapReduce。当我尝试这样做时,我注意到只有第一个作业被执行。 最佳答案 如果您的目标是并行运行作业,那么使用job.submit()肯定没有风险。job.waitForCompletion存在的主要原因是它的方法调用仅在作业完成时返回,并且返回成功或失败状态,可用于确定要运行的进一步步骤或不是。现在,回过头来看,您只看到第一个作业正

hadoop - Oozie 作业停留在 PREP 状态下的 START 操作

我有一个从Java客户端启动的Oozie作业,它卡在START操作中,它说它正在运行,但START节点处于PREP状态。这是为什么以及如何解决这个问题?Oozie工作流只包含一个java操作。集群上的Hadoop版本是2.4.0,集群上的Oozie是4.0.0。这是workflow.xml${jobTracker}${nameNode}mapred.job.queue.namedefaulttestingoozieclient.ClientJavafailed,errormessage[${wf:errorMessage(wf:lastErrorNode())}]这是java客户端Oo

hadoop - 在 hadoop 安装中找不到 start-all.sh

我正在尝试在我的本地机器上安装hadoop并正在关注this.我也设置了hadoophome这是我现在尝试运行的命令hduser@ubuntu:~$/usr/local/hadoop/bin/start-all.sh这是我得到的错误-su:/usr/local/hadoop/bin/start-all.sh:Nosuchfileordirectory这是我添加到我的$HOME/.bashrc文件中的内容#SetHadoop-relatedenvironmentvariablesexportHADOOP_HOME=/usr/local/hadoop#SetJAVA_HOME(wewill

java - 在 Mapreduce 中设置 job.setInputFormatClass 时出错

我正在运行一个MapReduce程序。我需要以KEYVALUE对的格式提供输入文本文件。这样如果我写job.setInputFormatClass(KeyValueTextInputFormat.class);eclipse编译器显示错误,我无法使用InputFormat。无论如何我需要将输入的格式设置为KeyValueTextInputFormat我该怎么做呢??有什么想法吗?????我的代码是`packagecom.iot.dictionary;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;

java - 第一次使用Hadoop,MapReduce Job没有运行Reduce Phase

我编写了一个简单的mapreduce作业,它会从DFS中读取数据并在其上运行一个简单的算法。在尝试调试它时,我决定简单地让映射器输出一组键和值,而缩减器输出一组完全不同的键和值。我在单节点Hadoop20.2集群上运行这个作业。作业完成后,输出仅包含映射器输出的值,让我相信reducer没有运行。如果有人对我的代码产生这种输出的原因提供任何见解,我将不胜感激。我已经尝试将outputKeyClass和outputValueClass设置为不同的东西,以及将setMapOutputKeyClass和setMapOutputValueClass设置为不同的东西。目前注释我们的代码部分是我正

java - 如何优雅地终止 hadoop 作业/拦截 `hadoop job -kill`

我的Java应用程序在映射器上运行,并使用QuboleAPI创建子进程。应用程序存储子qubolequeryID。我需要在退出前拦截终止信号并关闭子进程。hadoopjob-killjobId和yarnapplication-killapplicationId命令正在以SIGKILL方式杀死作业,我不知道如何拦截关机。是否有可能以某种方式拦截作业终止或配置hadoop以使应用程序有机会正常关闭?应用程序在本地运行时使用ShutdownHook成功拦截关闭,而不是在映射器容器中,并且能够杀死它的子进程。请建议在映射器中运行时如何拦截关机,或者我做错了什么? 最