草庐IT

作业组

全部标签

hadoop - 如何在代码中找到 hadoop 作业的作业 ID?

我有一个Hadoop程序,它有一个循环。在循环的每次迭代中,都会创建一个作业。如何在代码中找到作业ID? 最佳答案 当您提交Job实例时,您可以使用getJobID方法获取有关作业ID的信息:Configurationconfig=newConfiguration();Jobjob=newJob(config);//configureyourjobjob.submit();//atthatpointyourjobissubmittedbutnotfinishedandshouldhaveyourjobidStringjobid=jo

hadoop - 将 Mapreduce 作业的 Reducer 输出写入单个文件

我已经为HBase中的数据编写了一个map-reduce作业。它包含多个映射器和一个reducer。Reducer方法接收映射器提供的数据并对其进行一些分析。在HBase中的所有数据处理完成后,我想通过单个Reducer将数据写回HDFS中的文件。目前每次拿到新的数据都可以写到HDFS,但是最后不知道怎么把最后的结论写到HDFS。 最佳答案 因此,如果您尝试将单个reducer的最终结果写入HDFS,您可以尝试以下任何一种方法-使用HadoopAPIFileSystem的create()函数从reducer写入HDFS。在最终计算后

hadoop - 您可以不通过 WebHCat (Templeton) 向 HDInsight 提交作业吗?

我正在使用一个提交MapReduce作业的现有工具,并且宁愿不必更改它以通过RESTAPI(WebHCat/Templeton)提交作业-有人知道这样做的方法吗?也许是一种将MapReduce服务公开到我想从中提交作业的服务器的方法? 最佳答案 Microsoft已发布HDInsight.NETSDK。参见http://www.windowsazure.com/en-us/manage/services/hdinsight/submit-hadoop-jobs-programmatically/

hadoop - 使用 tHDFSPut 的简单 Talend 作业因连接被拒绝而失败

我创建了一个Talend作业,使用tHDFSPut将一个简单的文本文件(webapp.log,50KB)上传到HDFS。目录和文件已在HDFS中成功创建,但在上传文件内容期间,我以某种方式重现了Connectionrefused:nofurtherinformation(请参阅末尾的日志),因此上传失败(即创建的文件保持为空)。HDFS在ClouderaQuickstartVM中运行。tHDFSComponent中的用户名设置为“cloudera”并且应该可以工作,因为它是默认配置的一部分。对于为什么我收到“连接被拒绝”有什么建议吗?我尝试了什么ClouderaManager表示服务h

hadoop - 在 MapReduce 作业中使用之前,Amazon EMR 框架是否从 S3 复制数据

我注意到当输入位置是S3中的文件时,在调用EMR作业和实际开始数据的mapreduce处理之间需要等待很长时间。我的问题是,EMR是直接在驻留在nativeS3文件系统中的数据上运行,还是将数据复制到已配置的EC2机器(在EMR集群中)的HDFS集群中,在这种情况下,它会占用大量资源复制数据的时间? 最佳答案 S3是一种存储机制,肯定不能处理数据。因此,在MR作业中处理之前,必须将数据复制到EC2节点。 关于hadoop-在MapReduce作业中使用之前,AmazonEMR框架是否从S

hadoop - 如何在 Hadoop 1.2.1 中控制用户作业/任务的日志消息级别

我需要从我的hadoopmapreduce作业中打印跟踪和调试消息,同时将hadoop系统消息保持在默认级别(默认为INFO)。我尝试了以下方法:在作业方法中添加记录器消息:packageorg.example.mapreducejobpublicvoidreduce(TextextId,Iterable>myDataItems,Contextcontext)throwsIOException,InterruptedException{log.debug("reduce():iwantthismessagetobeprintedintheuserlogs");log.info("red

java - 使用 -libjars 的 MapReduce 流作业,自定义分区程序失败 : "class not found"

我正在尝试将自定义(java)分区程序附加到我的MapReduce流作业。我正在使用这个命令:../bin/hadoopjar../contrib/streaming/hadoop-streaming-1.2.1.jar\-libjars./NumericPartitioner.jar-Dmapred.map.tasks=12-Dmapred.reduce.tasks=36\-input/input-output/output/keys-mapper"map_threeJoin.py"-reducer"keycount.py"\-partitionernewjoin.NumericPa

hadoop - Avro mapreduce 作业失败 java.lang.IncompatibleClassChangeError

我正在使用HDP2.0-hadoop2.2.0和ApacheAvro1.7.4并遵循新M/Rapi的avromapreduce指南here出现以下错误2014-07-1505:46:04,354FATAL[main]org.apache.hadoop.mapred.YarnChild:Errorrunningchild:java.lang.IncompatibleClassChangeError:Foundinterfaceorg.apache.hadoop.mapreduce.TaskAttemptContext,butclasswasexpectedatorg.apache.avr

eclipse - 连接到 Eclipse 中的 Hortonworks VM 以进行 MapReduce 作业的 ConnectTimeoutException?

我正在尝试在Eclipse中运行MapReduce作业。我正在尝试连接到HortonworksVM并读取HDFS中的文件之一。这是HDFS中文件的显示:我正在使用以下代码访问该文件:FileInputFormat.setInputPaths(conf,newPath("hdfs://127.0.0.1:8020/user/hue/smallClaimData.txt"));我非常有信心这个路径是正确的,因为我第一次尝试运行它时出现错误:“文件不存在”。我添加了用户文件夹名称(我第一次省略了)并且错误消失了。因此,我假设我在HDFS中正确引用了这个文件但是,当我运行mapreduce作业

python-2.7 - Dataproc Pyspark 作业仅在一个节点上运行

我的问题是我的pyspark作业没有并行运行。代码和数据格式:我的PySpark看起来像这样(显然是经过简化的):classTheThing:def__init__(self,dInputData,lDataInstance):#...defdoes_the_thing(self):"""About0.01secondscalculationtimeperrow"""#...returnlProcessedData#containsinputdatapre-processedfromotherRDDs#donelikethisbecauseoneRDDcannotworkwithoth