作业队

Hadoop:如何在不干扰所有正在进行的作业的情况下重启 YARN？

当我调用./stop-yarn.sh然后调用./start-yarn.sh时，所有正在进行的作业将打印如下内容:14/10/2216:23:28INFOipc.Client:Retryingconnecttoserver:644v3.mzhen.cn/192.168.7.210:18040.Alreadytried0time(s);retrypolicyisRetryUpToMaximumCountWithFixedSleep(maxRetries=10,sleepTime=1SECONDS)14/10/2216:23:29INFOipc.Client:Retryingconnectt

何在 Hadoop RetryUpToMaximumCountWithFixedSle ResourceManager maxRetries hadoop-yarn

java - 生成空输出文件的 Map Reduce 作业

程序正在生成空输出文件。谁能建议我哪里出错了。任何帮助将不胜感激。我尝试放置job.setNumReduceTask(0)，因为我没有使用reducer，但输出文件仍然是空的。publicstaticclassPrizeDisMapperextendsMapper{intrating=0;TextCustID;IntWritabler;TextMovieID;publicvoidmap(LongWritablekey,Textline,Contextcontext)throwsIOException,InterruptedException{Stringline1=line.toStr

Reduce java String public Text apache hadoop mapreduce bigdata

hadoop - 从本地目录到 HDFS 的副本是否运行 mapreduce 作业？

当我们发出hdfsput或copyfromlocal命令时，它会调用mapreduce作业吗？如果是，运行了多少映射器？如果没有，转移是如何完成的？我阅读了Hadoop权威指南中的文件读取剖析，但想获得更多关于此的见解。最佳答案当我们使用put和copyFromLocal命令时，将本地文件复制到HDFS是使用mapreduce作业完成的。它实际上是由hadoop客户端二进制本身使用客户端库和队列使用Streaming完成的。在将内容复制到HDFS时，hadoop/hdfs二进制命令使用DistributedFileSystem类

mapreduce hadoop code section strong

java - 在 Map Reduce 作业 Hadoop 中使用文件中的数据作为 Hash-Map

我有一个包含10,000(“小文件”)行的文件，其中包含键值小文件中的不同键可以具有相同的值。我必须对不同的文件(大文件)进行字数统计。购买我需要用(“小文件”)-inMapper中的值替换(“大文件”)中的键。只有在它在reducer中计数之后。我想在不使用pig/hive的情况下使用单个mapreduce作业来实现它。你能帮我指导我怎么做吗？小文件将在hdfs上，我不确定其他节点将如何从中读取-不认为它甚至被推荐-因为具有小文件的节点将不得不非常努力地向每个节点发送数据maptask。最佳答案你可以做一个mapside加入，

Map Hash-Map section 中进大文 java hadoop mapreduce

Hadoop MapReduce 作业卡住，因为 auxService :mapreduce_shuffle does not exist

我检查了多个问题相同的帖子，解决方案总是将以下内容添加到yarn-site.xmlyarm.nodemanager.aux-servicesmapreduce_shuffleyarn.nodemanager.aux-services.mapreduce_shuffle.classorg.apache.hadoop.mapred.ShuffleHandler我在配置中涵盖了这两个属性并重新启动了yarn。问题依然存在。错误是:17/02/1515:43:34INFOmapreduce.Job:TaskId:attempt_1487202110321_0001_m_000000_2,Sta

卡住 mapreduce_shuffle code lt gt hadoop mapreduce

java - 为什么 Hadoop 作业需要那么多线程？

我对Hadoop的理解是，每个计算节点上的并行性是通过为每个核心启动单独的jvm来实现的。我观察到每个jvm拥有几十个线程，导致每个节点有数千个线程。我想不出有什么理由产生这么多线程。这是怎么回事？例如，这里有一个简单的pig脚本，用于解析和过滤一些json:/**GettweetswithGPS*/REGISTER$JAR;json_eb=LOAD'$IN_DIRS'USINGcom.twitter.elephantbird.pig.load.JsonLoader('-nestedLoad')as(json:map[]);--parsejsonwithtwitter'slibrary

Hadoop java 39 section mapred multithreading apache-pig

hadoop - 如何从 Beeline 或任何 JDBC 客户端运行 Hive on Spark 作业？

我正在尝试运行HiveonSpark查询(使用Spark作为执行引擎的Hive查询)。我已经在hive-site.xml中进行了设置我已经启动了一个hiveserver2，并尝试使用Beeline在同一台机器上连接到它，如下所示:$hiveserver2&$$HIVE_HOME/bin/beeline-ujdbc:hive2://myIP:10000-e"selectcount(*)fromitem;"但作业没有提交，我得到以下错误Error:Errorwhileprocessingstatement:FAILED:ExecutionError,returncode1fromorg.a

Beeline hadoop property gt lt jdbc apache-spark hive

hadoop - 无法使用 Oozie 部署 Spark 作业

我需要让Spark作业全天候运行24/7，为此我正在使用Oozie。为此，我编写了一个workflow.xml和job.properties文件，其中包含调用它所需的信息。然而，当我尝试使用此发送oozie作业时:ooziejob–config/home/oozie/tst/job.properties-run我收到以下错误消息，非常清楚:java.io.IOException:configurationisnotspecifiedatorg.apache.oozie.cli.OozieCLI.getConfiguration(OozieCLI.java:816)atorg.apach

hadoop Oozie OozieCLI code apache-spark

hadoop - Oozie s3 作为作业文件夹

当从s3提供workflow.xml时，Oozie失败并出现以下错误，但从HDFS提供workflow.xml时同样有效。同样适用于早期版本的oozie，与4.3版本的oozie相比有什么变化吗？环境:HDP3.1.0Oozie4.3.1oozie.service.HadoopAccessorService.supported.filesystems=*Job.propertiesnameNode=hdfs://ambari-master-1a.xdata.com:8020jobTracker=ambari-master-2a.xdata.com:8050queue=default#O

hadoop Oozie apache java amazon-s3 hive

java - 管道 hadoop mapreduce 作业

我有五个mapreduce，我分别运行它们。我想将它们全部通过管道传输。因此，一项工作的输出转到下一项工作。目前，我编写了shell脚本来执行它们。有没有办法用java写这个？请举例说明。谢谢最佳答案您可能会发现JobControl是将这些作业链接在一起的最简单方法。对于更复杂的工作流程，我建议查看Oozie. 关于java-管道hadoopmapreduce作业，我们在StackOverflow上找到一个类似的问题： https://stackoverf

mapreduce hadoop section noreferrer noopener java programming-languages

178 179 180181182 183 184