作业队_草庐IT

hadoop - Map reduce 作业卡在 map 0% reduce 0%

我正在运行著名的wordcount示例。我有一个本地和prodhadoop设置。同样的例子在生产环境中工作，但在本地不工作。谁能告诉我应该寻找什么。工作陷入困境。任务日志是:~/tmp$hadoopjarwordcount.jarWordCount/testhistory/outputtest/testWarning:$HADOOP_HOMEisdeprecated.13/08/2916:12:34WARNmapred.JobClient:UseGenericOptionsParserforparsingthearguments.ApplicationsshouldimplementT

apache - 如何在不重新启动 oozie 作业的情况下重新加载 oozie 作业配置文件

我想知道是否有一种方法可以在不重启oozie作业(协调器)的情况下重新加载oozie作业的配置文件。因为协调器实际上运行着我们的许多任务，所以有时我们可能只需要更改作业配置文件的一行，然后进行更新，而不会干扰其他任务。非常感谢。最佳答案一旦协调器开始运行，可以使用以下命令更新oozie协调器的属性。更新unix文件系统中的属性文件，然后提交如下。ooziejob-ooziehttp://namenodeinfo/oozie-configjob.properties-updatecoordinator_job_id请注意，所有已创

oozie 何在协调器 section apache hadoop hbase hive

java - 记录 MapReduce 作业的标准做法

我正在尝试寻找记录MapReduce作业的最佳方法。我在我的其他Java应用程序中使用slf4j和log4jappender，但是由于MapReduce作业以分布式方式在集群中运行，我不知道应该在哪里设置日志文件位置，因为它是一个访问受限的共享集群特权。是否有记录MapReduce作业的任何标准做法，以便您可以在作业完成后轻松查看整个集群的日志？最佳答案您可以使用log4j，它是hadoop使用的默认日志记录框架。因此，在您的MapReduce应用程序中，您可以执行如下操作:importorg.apache.log4j.Logg

MapReduce 做法 section code java hadoop hadoop2 mapr

java - 运行 Hadoop MapReduce 作业时如何获取文件名/文件内容作为 MAP 的键/值输入？

我正在创建一个程序来分析PDF、DOC和DOCX文件。这些文件存储在HDFS中。当我开始我的MapReduce作业时，我希望map函数将文件名作为键，将二进制内容作为值。然后我想创建一个流阅读器，我可以将其传递给PDF解析器库。如何实现映射阶段的键/值对是文件名/文件内容？我正在使用Hadoop0.20.2这是启Action业的旧代码:publicstaticvoidmain(String[]args)throwsException{JobConfconf=newJobConf(PdfReader.class);conf.setJobName("pdfreader");conf.set

MapReduce Hadoop section conf class java distributed-system

hadoop - 从 oozie 的网络用户界面中删除作业？

Oozie将在其WebUI中列出所有提交的作业，包括RUNNING、KILLED、PREP等。有什么方法可以在不直接编辑MetastoreDB的情况下从oozie的WebUI中删除作业？最佳答案有一些属性可以在设定的天数过期后删除已完成的作业/协调器/包:http://oozie.apache.org/docs/3.3.2/oozie-default.xmloozie.services-需要包含清除服务:org.apache.oozie.service.PurgeServiceoozie.service.PurgeService

hadoop oozie section code

apache - 在 JSON 中获取 Hadoop 作业跟踪器指标

我正在寻找一种以JSON格式列出所有JobTracker和TaskTracker详细信息的方法。当我尝试http://[myjobtrackermachine]:50030/metrics?format=json时，我得到一个空的JSON字符串(尽管在用户界面)。我错过了什么？最佳答案根据一些使用json和javaapi的经验，您可能缺少json的提供程序，可能需要在类路径中使用像jackson或gson这样的库。这些库可以使用pojo的反射将它们转换为json。即使这不是restapi，我也确信它依赖于一些外部json库。希望

跟踪器 apache section code json hadoop

java - AWS EMR Step 失败，因为它创建的作业失败

我正在尝试分析Wikipediaarticleviewdataset使用亚马逊电子病历。该数据集包含三个月期间(2011年1月1日至2011年3月31日)的页面浏览统计数据。我试图找到那段时间浏览量最多的文章。这是我正在使用的代码:publicclassmostViews{publicstaticclassMapextendsMapReduceBaseimplementsMapper{privatefinalstaticIntWritableviews=newIntWritable(1);privateTextarticle=newText();publicvoidmap(LongWr

java Step Process running IntWritable hadoop amazon-web-services mapreduce emr

hadoop - 在 HIVE 中运行查询时如何更改 Tez 作业名称

当我使用Tez提交HiveSQL时，如下所示:hive(default)>selectcount(*)fromsimple_data;在ResourceManagerUI中，作业名称显示类似HIVE-9d1906a2-25dd-4a7c-9ea3-bf651036c7eb有没有办法将作业名称更改为my_job_nam？如果我不使用Tez并在MR中运行作业，我可以使用setmapred.job.name设置作业名称。是否需要设置任何Tez参数来更改作业名称？欢迎任何意见。最佳答案您可以使用“sethiveconfhive.quer

中运 hadoop section code hive apache-pig

java - 如何优雅地终止 hadoop 作业/拦截 `hadoop job -kill`

我的Java应用程序在映射器上运行，并使用QuboleAPI创建子进程。应用程序存储子qubolequeryID。我需要在退出前拦截终止信号并关闭子进程。hadoopjob-killjobId和yarnapplication-killapplicationId命令正在以SIGKILL方式杀死作业，我不知道如何拦截关机。是否有可能以某种方式拦截作业终止或配置hadoop以使应用程序有机会正常关闭？应用程序在本地运行时使用ShutdownHook成功拦截关闭，而不是在映射器容器中，并且能够杀死它的子进程。请建议在映射器中运行时如何拦截关机，或者我做错了什么？最

雅地 hadoop code section java mapreduce qubole

hadoop - 如何让配置单元同时运行 mapreduce 作业？

我是hive的新手，遇到了一个问题，我在hive中有一个这样的表:createtabletd(idint,timestring,ipstring,v1bigint,v2int,v3int,v4int,v5bigint,v6int)PARTITIONEDBY(dtSTRING)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','linesTERMINATEDBY'\n';然后我运行一个像这样的sql:fromtdINSERTOVERWRITEDIRECTORY'/tmp/total.out'selectcount(v1)INSERTOVERWRITEDIRECT

配置单 mapreduce Stage depends stages hadoop hive