作业队

java - MapReduce 作业失败——线程中的异常 "main"java.io.IOException : java.net.ConnectException

我正在Hadoop上运行一个简单的计数程序。我的输入文件大小为4GB。由于某种原因，作业不断失败并出现错误:但是，如果我用一个小的输入文件(比如100MB)尝试相同的代码，它工作得很好。我是新手，我似乎找不到任何可行的解决方案。我的设置是伪分布式。我需要进行任何配置更改吗？我已经按照hadoop文档提供的Psuedo分布式设置进行了标准配置。我们将不胜感激任何帮助。最佳答案根据您发布的错误堆栈跟踪，ConnectionRefused异常是针对JobHistoryServer的。对于伪分布式设置，无需更改配置即可启动JobHist

xml - 当aws S3中存在成功文件时如何触发oozie作业

我正在使用oozie执行HDFS数据传输操作，要求是只要awsS3存储桶中有可用数据就触发oozie工作流作业。我正在考虑在我的S3存储桶中保留一个成功文件和数据文件，但我不确定如何让oozie协调器定期从S3读取以检查成功文件是否可用。如果有人可以提供相同的示例coordinator.xml，那就太好了。最佳答案你能试试下面的吗:-s3n://mybucket/a/b/${YEAR}/${MONTH}/${DAY}${coord:current(0)}fileDirectory${coord:dataIn('coorddata

oozie xml lt gt 34 hadoop amazon-s3 oozie-coordinator

hadoop - Map Reduce 已完成但 pig 作业失败

我最近遇到了这种情况，其中MapReduce作业似乎在RM中成功，其中PIG脚本返回退出代码8，表示“Throwablethrown(意外异常)”按要求添加脚本:REGISTER'$LIB_LOCATION/*.jar';--setnumberofreducersto200SETdefault_parallel$REDUCERS;SETmapreduce.map.memory.mb3072;SETmapreduce.reduce.memory.mb6144;SETmapreduce.map.java.opts-Xmx2560m;SETmapreduce.reduce.java.opts

hadoop Reduce mapreduce apache java apache-pig

java - Mapreduce 作业吐出 java.io.IOException : com. mysql.jdbc.Driver

hadoop-2.7.3我正在创建一个mapreduce作业，它从HDFS输入文件读取数据并将数据写入mysql。它在启动连接时抛出错误。没有其他信息，例如连接被拒绝或classNotFound异常。简单的IO异常，对我来说没有任何意义。Error:java.io.IOException:com.mysql.jdbc.Driveratorg.apache.hadoop.mapreduce.lib.db.DBOutputFormat.getRecordWriter(DBOutputFormat.java:185)atorg.apache.hadoop.mapred.ReduceTask$

java IOException hadoop section mysql jdbc mapreduce

java - 在不创建 jar 文件的情况下运行 hadoop 作业

我是hadoop的初学者，刚刚练习了一些教程项目。最初用python在hadoop中做项目，在那里我可以分别指定映射器和缩减器文件hadoopjar/usr/local/hadoop/hadoop-2.8.0/share/hadoop/tools/lib/hadoop-streaming-2.8.0.jar-mappermapper.py-reducerreducer.py-filemapper.py-filereducer.py-inputinput1-outputjoboutput但我想在java中做同样的事情，但我只能通过创建jar文件找到教程。我没有找到任何调试java映射器和

hadoop java apache ubuntu mapreduce

maven - 客户端 yarn 作业的 Scala 错误

我知道对此有一些疑问，但没有足够的信息来解决我的问题。我尝试在我的Eclipse项目中以yarn-client模式运行作业。我有一个包含2个节点的hadoop集群(其中一个节点当前已关闭)。我尝试在集群模式下运行它(使用spark-submit)并且它工作正常。我尝试通过以下方式从eclipse项目在本地运行它:我正在尝试制作这样的Spark上下文:SparkConfconf=newSparkConf().setAppName("AnomalyDetection-BuildModel").setMaster("local[*]");这是有效的。但是当我尝试使用“yarn-client”

maven Scala lt gt version hadoop apache-spark hadoop-yarn

hadoop - Spark 作业出错，出现 : Too many elements to create a power set 34

我正在尝试在查询弹性数据的mesos集群中运行一个spark作业，使用esJsonRDD查询如下:FetchingesJsonRDDfromelasticsearchwithcomplexfilteringinSpark，对于少于32个节点的多节点弹性集群运行良好。随着弹性中节点的增加，作业失败并出现以下异常:org.elasticsearch.hadoop.EsHadoopIllegalArgumentException:Toomanyelementstocreateapowerset37如https://github.com/elastic/elasticsearch-hadoop

elements hadoop elasticsearch 39 code apache-spark scalability

hadoop - yarn - spark 并行作业

我制作了只有1个工作节点的yarn-cluster，当我提交我的spark应用程序作业时它似乎工作正常。当我提交多个作业时，作业在hadoop队列中并一个接一个地处理提交的申请。我想并行处理我的申请，而不是逐一处理。这有什么配置吗？或者无法在yarn上做到这一点？最佳答案默认情况下，Yarn会一个一个地提交作业。要提交多个作业，您可以更改执行程序核心的数量:spark-submitclass/jar--executor-memory2g--num-executors15--executor-cores3--masteryarn-

hadoop spark section yarn stackoverflow hadoop-yarn

file - Hadoop 作业从多个目录获取输入文件并在映射阶段检测每个文件

在一个作业中有两个输入文件，它们位于两个不同的目录中，在Hadoopjobtakinginputfilesfrommultipledirectories中，我们可以从多个目录读取文件。这些文件具有相同的名称，但它们位于不同名称的文件夹中。C1/part-0000C2/part-0000有没有可能在map阶段检测文件？就像是:publicvoidmap(LongWritablekey,Textvalue,Context上下文)抛出IOException，InterruptedException{如果(第一个文件){...context.write(outputKey,outputValu

Hadoop file section code context input mapreduce

hadoop - 在 close() 方法中报告作业状态/进度

我在hadoop中遇到了超时问题，我的工作被终止了。close()方法中有繁重的清理工作，因此在进行这些清理时我需要更新close方法中的进度。对于这种情况，增加超时不是一个好的选择，因为它无法随着清理工作量的增加而扩展。我正在查看的遗留作业使用的是旧API，它在reduce()方法中有一个报告对象，可用于更新进度。但是，在close()方法中没有这样的Reporter。那么有什么解决方法吗？最佳答案尝试使用Mapper.Context.Hadoop提供了Prograssable接口(interface)，其中包含这个有趣的方法

中报 hadoop section code distributed-computing

161 162 163164165 166 167