草庐IT

作业队

全部标签

Hadoop:如何在不干扰所有正在进行的作业的情况下重启 YARN?

当我调用./stop-yarn.sh然后调用./start-yarn.sh时,所有正在进行的作业将打印如下内容:14/10/2216:23:28INFOipc.Client:Retryingconnecttoserver:644v3.mzhen.cn/192.168.7.210:18040.Alreadytried0time(s);retrypolicyisRetryUpToMaximumCountWithFixedSleep(maxRetries=10,sleepTime=1SECONDS)14/10/2216:23:29INFOipc.Client:Retryingconnectt

java - 生成空输出文件的 Map Reduce 作业

程序正在生成空输出文件。谁能建议我哪里出错了。任何帮助将不胜感激。我尝试放置job.setNumReduceTask(0),因为我没有使用reducer,但输出文件仍然是空的。publicstaticclassPrizeDisMapperextendsMapper{intrating=0;TextCustID;IntWritabler;TextMovieID;publicvoidmap(LongWritablekey,Textline,Contextcontext)throwsIOException,InterruptedException{Stringline1=line.toStr

hadoop - 从本地目录到 HDFS 的副本是否运行 mapreduce 作业?

当我们发出hdfsput或copyfromlocal命令时,它会调用mapreduce作业吗?如果是,运行了多少映射器?如果没有,转移是如何完成的?我阅读了Hadoop权威指南中的文件读取剖析,但想获得更多关于此的见解。 最佳答案 当我们使用put和copyFromLocal命令时,将本地文件复制到HDFS是使用mapreduce作业完成的。它实际上是由hadoop客户端二进制本身使用客户端库和队列使用Streaming完成的。在将内容复制到HDFS时,hadoop/hdfs二进制命令使用DistributedFileSystem类

java - 在 Map Reduce 作业 Hadoop 中使用文件中的数据作为 Hash-Map

我有一个包含10,000(“小文件”)行的文件,其中包含键值小文件中的不同键可以具有相同的值。我必须对不同的文件(大文件)进行字数统计。购买我需要用(“小文件”)-inMapper中的值替换(“大文件”)中的键。只有在它在reducer中计数之后。我想在不使用pig/hive的情况下使用单个mapreduce作业来实现它。你能帮我指导我怎么做吗?小文件将在hdfs上,我不确定其他节点将如何从中读取-不认为它甚至被推荐-因为具有小文件的节点将不得不非常努力地向每个节点发送数据maptask。 最佳答案 你可以做一个mapside加入,

Hadoop MapReduce 作业卡住,因为 auxService :mapreduce_shuffle does not exist

我检查了多个问题相同的帖子,解决方案总是将以下内容添加到yarn-site.xmlyarm.nodemanager.aux-servicesmapreduce_shuffleyarn.nodemanager.aux-services.mapreduce_shuffle.classorg.apache.hadoop.mapred.ShuffleHandler我在配置中涵盖了这两个属性并重新启动了yarn。问题依然存在。错误是:17/02/1515:43:34INFOmapreduce.Job:TaskId:attempt_1487202110321_0001_m_000000_2,Sta

java - 为什么 Hadoop 作业需要那么多线程?

我对Hadoop的理解是,每个计算节点上的并行性是通过为每个核心启动单独的jvm来实现的。我观察到每个jvm拥有几十个线程,导致每个节点有数千个线程。我想不出有什么理由产生这么多线程。这是怎么回事?例如,这里有一个简单的pig脚本,用于解析和过滤一些json:/**GettweetswithGPS*/REGISTER$JAR;json_eb=LOAD'$IN_DIRS'USINGcom.twitter.elephantbird.pig.load.JsonLoader('-nestedLoad')as(json:map[]);--parsejsonwithtwitter'slibrary

hadoop - 如何从 Beeline 或任何 JDBC 客户端运行 Hive on Spark 作业?

我正在尝试运行HiveonSpark查询(使用Spark作为执行引擎的Hive查询)。我已经在hive-site.xml中进行了设置我已经启动了一个hiveserver2,并尝试使用Beeline在同一台机器上连接到它,如下所示:$hiveserver2&$$HIVE_HOME/bin/beeline-ujdbc:hive2://myIP:10000-e"selectcount(*)fromitem;"但作业没有提交,我得到以下错误Error:Errorwhileprocessingstatement:FAILED:ExecutionError,returncode1fromorg.a

hadoop - 无法使用 Oozie 部署 Spark 作业

我需要让Spark作业全天候运行24/7,为此我正在使用Oozie。为此,我编写了一个workflow.xml和job.properties文件,其中包含调用它所需的信息。然而,当我尝试使用此发送oozie作业时:ooziejob–config/home/oozie/tst/job.properties-run我收到以下错误消息,非常清楚:java.io.IOException:configurationisnotspecifiedatorg.apache.oozie.cli.OozieCLI.getConfiguration(OozieCLI.java:816)atorg.apach

hadoop - Oozie s3 作为作业文件夹

当从s3提供workflow.xml时,Oozie失败并出现以下错误,但从HDFS提供workflow.xml时同样有效。同样适用于早期版本的oozie,与4.3版本的oozie相比有什么变化吗?环境:HDP3.1.0Oozie4.3.1oozie.service.HadoopAccessorService.supported.filesystems=*Job.propertiesnameNode=hdfs://ambari-master-1a.xdata.com:8020jobTracker=ambari-master-2a.xdata.com:8050queue=default#O

java - 管道 hadoop mapreduce 作业

我有五个mapreduce,我分别运行它们。我想将它们全部通过管道传输。因此,一项工作的输出转到下一项工作。目前,我编写了shell脚本来执行它们。有没有办法用java写这个?请举例说明。谢谢 最佳答案 您可能会发现JobControl是将这些作业链接在一起的最简单方法。对于更复杂的工作流程,我建议查看Oozie. 关于java-管道hadoopmapreduce作业,我们在StackOverflow上找到一个类似的问题: https://stackoverf