草庐IT

Delayed_job

全部标签

hadoop - 运行hadoop example,遇到 ".staging/job_1541144755485_0002/job.splitmetainfo does not exist",怎么办?

我的配置如下:Hadoop实验我用了两台机器,分别是pc720(10.10.1.1)和pc719(10.10.1.2)。jdk(版本1.8.0_181)由apt-get安装。Hadoop2.7.1下载自https://archive.apache.org/dist/hadoop/common/hadoop-2.7.1/,并放入/opt/第一步:我配置了/etc/bash.bashrc,添加了exportJAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64exportPATH=${JAVA_HOME}/bin:${PATH}exportHADOOP_HO

amazon-web-services - 如何计算映射器/缩减器的数量,以最大限度地提高在亚马逊云上运行的 mahout Recommender Job 的性能?

根据AmazonElasticMapReduce上使用/可用的实例,计算要使用的正确hadoop映射器和缩减器数量的最佳方法是什么?(使用mahout-core-0.7发行版的RecommenderJob) 最佳答案 通用的Hadoop答案适用:让Hadoop选择映射器的数量将reducer的数量设置为等于集群中reduce插槽的数量对于EMR,查看在您使用的实例类型上默认运行的reducer数量:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/Ha

hadoop - 如何在 HBase 上配置 map reduce jobs

我有一个在HBase表上运行的mapreduce作业。它在应用一些扫描过滤器并进行一些处理后扫描Hbase表。这项工作花费了很长时间,绝对比预期的要长得多,并且感觉性能下降是指数级的(即,前90%的完成速度比其余的快得多,大约98%(映射器完成)之后,看起来像像电影开始时的hell边缘一样陷入永恒。从高层来看,这种不均衡的性能应该没有任何理由,因为扫描中的每一行都应该有类似的行为,并且下游服务应该在HBase表的每一行都有类似的SLA。如何调试和分析此作业?是否有任何可用的工具可以帮助我对系统进行计量并查明行为异常的组件? 最佳答案

hadoop - 级联 2.0.0 作业在 hadoop FileNotFoundException job.split 上失败

当我在更大的数据集上运行我的作业时,许多映射器/缩减器失败导致整个作业崩溃。这是我在许多映射器上看到的错误:java.io.FileNotFoundException:Filedoesnotexist:/mnt/var/lib/hadoop/tmp/mapred/staging/hadoop/.staging/job_201405050818_0001/job.splitatorg.apache.hadoop.hdfs.DFSClient$DFSInputStream.openInfo(DFSClient.java:1933)atorg.apache.hadoop.hdfs.DFSCl

hadoop - 亚马逊弹性 map 减少 : Job flow fails because output file is not yet generated

我有一个执行三项任务的AmazonEMR作业流程,第一项的输出是后续两项的输入。第二个任务的输出被第三个任务DistributedCache使用。我已经完全在EMR网站(控制台)上创建了作业流,但集群立即失败,因为它找不到分布式缓存文件-因为它尚未在步骤#1中创建。我唯一的选择是通过boostrap操作从CLI创建这些步骤,并指定--wait-for-steps选项吗?我无法执行一个任务的输入依赖于另一个任务的输出的多步骤作业流,这似乎很奇怪。 最佳答案 最后,我通过创建一个自举但没有任何步骤的AmazonEMR集群解决了这个问题。

shell - Oozie Job 仍处于 RUNNING 状态

我正在尝试在HDP集群上运行简单的oozie作业。执行oozie后,job保持Running状态。这是我的Workflow.xml${jobTracker}${nameNode}sqoopimport--connectjdbc:mysql://localhost:3306/test--tabletesting--split-byerr_dt--hive-import--hive-tabletesting-m1hive-site.xmlmysql-connector-java.jarActionfailed以下是正在生成的日志..2015-04-0714:33:32,792INFOAct

hadoop - HDFS 联邦 : Submission of Map Reduce jobs among multiple Name nodes

根据HdfsFederation上的Apache文档,系统可通过多个名称节点的联合进行隔离扩展。多个名称节点/namespace为了横向扩展名称服务,联邦使用多个独立的名称节点/namespace。名称节点是联合的;Namenodes是独立的,不需要相互协调。Datanodes被所有Namenodes用作block的公共(public)存储。我唯一的疑问:我没有看到名称节点之间有任何中央协调器,因为所有节点都在运行隔离。对如何提交和处理作业感到困惑。1)如果我提交一个map-reduce作业,哪个名称节点将处理它?或者2)客户端是否应该知道必须为其提交作业的名称节点?如果客户端不知道哪

c# - MapReduce.SDK : How to wait for MapReduce job?

我正在使用MicrosoftMapReduceSDK启动仅Mapper作业。调用hadoop.MapReduceJob.ExecuteJob立即抛出“响应状态代码不表示成功:404(未找到)”异常。检查HDInsight查询控制台时,作业成功启动并稍后完成。它还会写入正确的输出文件。我的猜测是,ExecuteJob试图在作业完成之前访问输出数据。处理这种情况的正确方法是什么?usingSystem;usingSystem.Linq;usingSystem.Security.Cryptography.X509Certificates;usingMicrosoft.WindowsAzure

amazon-web-services - 亚马逊 S3 错误代码 : 400 while running mr-job on EMR

在EMR上运行自定义jar时出现此错误。Exceptioninthread"main"com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception:BadRequest(Service:AmazonS3;StatusCode:400;ErrorCode:400BadRequest;RequestID:B042BB0B40A75966),S3ExtendedRequestID:vr/DUr8HD3xjomauyzqvVdGuW3fHBP8PDUmTIAoVLUxrmsxh9H+OS

java - mapreduce 中线程 "main"java.io.IOException : Job failed! 中的异常

我是Hadoop的新用户。我从Hadoop初学者指南(GarryTurkington)运行此示例代码,但遇到作业失败的问题。我在我的输出文件夹中没有看到输出文件(部分文件)。我在mapred-site.xml文件中做了很多更改,但我无法解决作业失败的问题。我该怎么办?importjava.io.IOException;importorg.apache.hadoop.conf.*;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.*;importorg.apache.hadoop.mapred.*;importorg.a