草庐IT

作业队

全部标签

hadoop - 如何知道通过 script-runner.jar 运行的脚本中的作业流 ID、其他集群参数

我正在使用以下命令行启动弹性mapreduce集群:$elastic-mapreduce\--create\--num-instances"${INSTANCES}"\--instance-typem1.medium\--ami-version3.0.4\--name"${CLUSTER_NAME}"\--log-uri"s3://my-bucket/elasticmapreduce/logs"\--step-name"${STEP_NAME}"\--step-actionTERMINATE_JOB_FLOW\--jars3://elasticmapreduce/libs/script

hadoop - 无法在 hadoop 集群上运行作业。仅使用 LocalJobRunner 运行

我在CDH5Beta2上使用hadoopjar命令提交了一个MR作业hadoopjar./hadoop-examples-0.0.1-SNAPSHOT.jarcom.aravind.learning.hadoop.mapred.join.ReduceSideJoinDrivertech_talks/users.csvtech_talks/ratings.csvtech_talks/output/ReduceSideJoinDriver/我也试过如下显式提供fs名称和工作跟踪器url但没有成功hadoopjar./hadoop-examples-0.0.1-SNAPSHOT.jarcom

hadoop - 运行 MR 作业时出现 "Unable to verify integrity of data"

我正在使用AmazonElasticMapReduce运行一个相对较大的MR作业。我在小数据集上运行了很多次作业,没有问题。但是当尝试在大型数据集上运行它时,出现以下异常:Error:com.amazonaws.AmazonClientException:Unabletoverifyintegrityofdatadownload.Clientcalculatedcontentlengthdidn'tmatchcontentlengthreceivedfromAmazonS3.Thedatamaybecorrupt.我用谷歌搜索了一下,得到的唯一建议是设置以下内容:System.setP

java - 空指针异常 - Hadoop Mapreduce 作业

我是Hadoop和Java的初学者,我正在编写Map、Reduce函数以根据邻近度将一组纬度和经度聚类到组中,并设置一个量级(集群中纬度、经度对的数量)和一个有代表性的经纬度对(截至目前,这是遇到的第一个经纬度对。)这是我的代码:packageorg.myorg;importjava.io.IOException;importjava.util.*;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.conf.*;importorg.apache.hadoop.io.*;importorg.apache.hadoop.mapr

hadoop - 执行 sqoop 作业时覆盖多个 sqoop 属性

我发现在运行时覆盖sqoop作业属性时,我只能覆盖一个属性。例子1:如果我提交sqoopjob--exectest123----query"select*fromtestwhereupdate_batch_idbetween4and10and\$CONDITIONS"----last-value3它只覆盖查询属性例子2:如果我提交sqoopjob--exectest123----last-value3----query"select*fromtestwhereupdate_batch_idbetween4and10and\$CONDITIONS"它仅覆盖查询属性的最后一个值属性。是否可

Python hadoop mapreduce 作业使用 mrjob subprocess.CalledProcessError

我正在尝试在我的自定义数据上运行来自mrjob网站的基本示例。我已经使用流成功运行了Hadoopmapreduce,我也成功地尝试了没有Hadoop的脚本,但现在我正尝试通过mrjob在Hadoop上运行它,方法是执行以下命令。./mapred.py-rhadoop--hadoop-bin/usr/bin/hadoop-ohdfs:///user/cloudera/wc_result_mrjobhdfs:///user/cloudera/booksmapred.py源码如下:#!/usr/bin/envpythonfrommrjob.jobimportMRJobclassMRWordF

java - 远程运行 spark 作业

正在尝试运行启动Spark作业。Spark作为包裹安装在ClouderaHadoop中。如何使用JavaAPI远程启动Spark作业? 最佳答案 要通过代码以编程方式提交Spark应用程序,而不是使用提交脚本,您需要创建一个SparkContext。这是JavaAPISparkContext要进一步配置上下文,您需要为其提供一个SparkConf,其值与配置页面上的条目相匹配:Configuration您的集群需要一份您要在其类路径中提交给它的代码的副本。有多种方法可以做到这一点,您可以在集群上手动管理它,或者使用setJars方法

hadoop - 为什么我的 map reduce 作业按顺序运行?

我有一个4节点集群和总共96GB内存。我已将我的输入分成100个文件,并将作业设置为有100个映射器。从日志来看,映射器似乎是按顺序运行的。[2014/10/0815:22:36]INFO:Totalinputpathstoprocess:100[2014/10/0815:22:36]INFO:numberofsplits:100[2014/10/0815:22:36]INFO:Startingtask:attempt_local1244628585_0001_m_000000_0[2014/10/0815:22:36]INFO:Submittingtokensforjob:job_l

java - 在 Windows 上运行没有管理员权限的 Hadoop MR 作业

我在windows上安装了Hadoop2.3.0,可以成功执行MR作业。但是当我尝试以普通权限(没有管理员权限)执行MR作业时,意味着作业获取失败并出现以下异常。在这里,我尝试使用PigScript示例。2014-10-1512:02:32,822WARN[main]org.apache.hadoop.security.UserGroupInformation:PriviledgedActionExceptionas:kaveen(auth:SIMPLE)cause:java.io.IOException:Splitclassorg.apache.pig.backend.hadoop.

hadoop - Mapreduce combinefileinputformat java.lang.reflect.InvocationTargetException 而两个作业访问相同的数据

HadoopMapreduceCombineFileInputFormat在读取大量小文件时效果很好,但我注意到有时作业会因以下异常而失败,java.lang.RuntimeException:java.lang.reflect.InvocationTargetExceptionatorg.apache.hadoop.mapreduce.lib.input.CombineFileRecordReader.initNextRecordReader(CombineFileRecordReader.java:164)atorg.apache.hadoop.mapreduce.lib.inpu