草庐IT

作业队

全部标签

hadoop - 远程执行 Hadoop 作业时 reduce 阶段异常

我有一个运行1.0.4的小型10节点hadoop集群,我正在尝试对其进行设置,以便我能够从网络上不是NameNode的机器提交作业。我有一个简单的示例设置,我使用ToolRunner执行作业,buildJobConf手动,并使用JobClient.submitJob()提交.当我从NameNode运行它时,一切都按预期工作。当我从网络中的任何其他节点运行时,作业被提交并且所有map任务成功完成,但所有reduce任务失败并出现以下异常:org.apache.hadoop.util.DiskChecker$DiskErrorException:Couldnotfindoutput/map

hadoop - 所有 map task 完成后作业范围的自定义清理

在运行只有映射器的map-reduce作业时,我有一个计数器来计算失败文档的数量。在完成所有映射器之后,如果失败文档的总数是高于固定分数。(我最后需要它,因为我最初不知道文档总数)。如何在不为此实现reduce的情况下实现这一目标?我知道有任务级别的清理方法。但是是否有任何作业级别的清理方法可用于在所有任务完成后执行此操作? 最佳答案 这很容易做到。这就是最新的mapreduceAPI的美妙之处。可以在Mapper类中覆盖run方法的帮助下控制mapper的执行,对于reducer也是如此。我不知道你期待的最终结果。但是,我为你准备

java - Mapreduce 作业因 IO 异常而失败

我正在运行单节点hadoop环境。我有一个mapreduce作业来计算某些特定时间段内某些监控信息的平均值,比如每小时平均值。该作业将输出写入hdfs中的路径。在运行该作业之前,它会及时清理。它工作正常一个月。昨天,在运行作业时,我从jobclient得到一个异常,说:文件/user/root/out1/_temporary/_attempt_201401141113_0007_r_000000_0/hi/130-r-00000只能复制到0个节点,而不是1个完整的堆栈跟踪如下:..........14/01/1712:00:09INFOmapred.JobClient:map100%r

hadoop - 在 Sqoop2 客户端 API 中提交作业时出现问题

我在双节点集群上使用Hadoop-2.2.0,hadoop配置正确且工作正常,现在我尝试在其上安装sqoop2(sqoop-1.99.3-bin-hadoop200)并尝试访问sqoop2网络用户界面(如localhost:12000)得到以下内容。ApacheSqoop根目录当尝试访问cloudera.com:12000/sqoop/version时,我得到了关注HTTP状态404-当我在sqoop客户端中使用它时[stratapps@cloudera2~]$sqoop.shclientSqoophomedirectory:/usr/local/sqoop2SqoopShell:Ty

linux - 用于远程作业提交的典型 Hadoop 设置

所以我对hadoop还是有点陌生​​,目前正在Amazonaws上建立一个小型测试集群。所以我的问题与集群结构的一些技巧有关,因此可以从远程机器提交作业。目前我有5台机器。4基本上是带有NameNodes,Yarn等的Hadoop集群。一台机器用作管理器机器(ClouderaManager)。我将描述我在设置上的思考过程,如果有人能对我不清楚的地方提出意见,那就太好了。我在想什么是小型集群的最佳设置。所以我决定只公开一台管理器机器,并可能使用它来通过它提交所有作业。其他机器将看到彼此等,但无法从外部世界访问。我对如何做到这一点有概念性的想法,但我不确定如何正确地去做这件事,如果有人能指

Hadoop map 作业因 com.datastax.driver.core.exceptions.NoHostAvailableException 而失败

我正在尝试使用hadoopmap-reduce对存储在cassandra中的数据运行分析。为此,我使用了可通过Maven依赖项cassandra-all获得的类CqlInputFormat。目前我们在生产环境中一直使用这个依赖的2.0.10版本。此外,我们正在使用版本为2.1.1的caassandra-driver-core。现在,当我向我的jobtracker提交一个简单的map-reduce作业时,我的所有映射器任务都会失败,并出现以下异常。这里要注意的另一个重要事项是,如果我使用cassandra-all2.0.6中可用的CqlPagingInputFormat,一切正常。但是这

hadoop - Oozie map-reduce 作业永远停留在 PREP 状态

我正在尝试运行wordcountmap-reduce示例,引用https://support.pivotal.io/hc/en-us/articles/203355837-How-to-run-a-Map-Reduce-jar-using-Oozie-workflow.我在集群设置中使用hadoop2.2.0问题是我的ooziemap-reduce作业一直在运行。它没有给出任何错误,但没有成功完成。没有错误消息。也没有创建输出目录(这是假设发生的)。下面是workflow.xml${jobTracker}${nameNode}mapred.mapper.new-apitruemapre

java - Giraph:自定义作业上未找到类异常

我正在使用Giraph开发算法。我在Hadoop1.2.1上使用1.0.0版。我是开发Giraph的新手,所以请保持温和;)我的自定义作业分为三个包:io:包含输入和输出格式类layout:包含Vertex类、Aggregator类和MasterCompute类。run:包含工具实现类。我使用构建的giraph-corejar作为引用在Eclipse中对其进行编程,然后将其导出到另一个名为“customJob.jar”的jar中。这是我在Hadoop中启动它的方式:hadoopjar/opt/hadoop/lib/customJob.jarlayout.customrVertex-vi

shell - 使用 Oozie 执行 shell 脚本,作业始终仅处于运行状态

我需要oozie的帮助,我正在尝试运行一个创建HDFS文件夹的脚本,当我执行Oozie时它仅显示在运行状态,任何人都可以帮助我确定我的workflow.xml是否有问题或乔.属性。我尝试验证workflow.xml,它没有显示任何错误。workflow.xml${jobTracker}${nameNode}/user/nathalok/run.sh/user/nathalok/run.sh#run.shScriptfailed,errormessage[${wf:errorMessage(wf:lastErrorNode())}]Job.propertiesnameNode=hdfs:

hadoop - 在 Spark 作业上使用 ElasticSearch 时 Guava jar 冲突

所以我有一段代码可以将记录索引到弹性中。此代码使用spark和hadoop运行。我刚刚将Elasticsearch升级到2.3.1。当我在本地机器上运行我的代码时,它运行良好。当我尝试使用spark提交作业运行它时,我得到了java.lang.NoSuchMethodError:com.google.common.util.concurrent.MoreExecutors.directExecutor()Ljava/util/concurrent/Executor;在谷歌搜索后,我意识到问题出在Guava上,所以在我的pom.xml中我只是把com.google.guavaGuava1