作业队_草庐IT

hadoop - 如何调试挂起的 hadoop map-reduce 作业

我运行MRJob，MapPhase运行成功，但ReducePhase符合33%并挂起(挂起约1小时)状态:“reduce>sort”我如何调试它？最佳答案这可能与您的情况无关，但我在一个节点上错误配置IPTABLES(~firewall)时发生了这种情况。当该节点被分配一个reducer角色时，reduce阶段将卡在33%。检查错误日志以确保连接正常，特别是如果您最近添加了新节点和/或手动配置了它们。关于hadoop-如何调试挂起的hadoopmap-reduce作业，我们在Sta

hadoop - 如何在 hadoop distributbuion 0.20.0 中并行运行 hadoop 作业

我头疼了好久，目前我的hadoop集群是这样的，我有40个salve节点要运行，每个slave节点我配置25个mappers10个reducer，所以最多可以启动40*25=1000个mappers和400个reducer同时。好的，现在我有以下工作:job1:我配置运行5个映射器和5个缩减器job2:我配置运行20个映射器和10个reducerjob3:我配置运行975个映射器和385个reducer假设我使用默认的FIFO作业调度，如果我连续提交3个映射器，这3个作业是否可以同时运行？从而最大限度地利用集群？目前我测试在mapper阶段，提交3个job后貌似可以启动1000个map

hadoop distributbuion 射器 section reducer scheduling jobs

具有多个参数的作业的 Hadoop 流式处理

是否可以将hadoop流配置为在作业运行时读取两个或多个输入参数？例如，假设我有一个脚本执行为:my_scriptfile1file2如何在hadoop流中指定它？据我所知，我只能指定具有以下执行语法的作业:my_script"fixed_params""input". 最佳答案在流媒体方面的工作不多，但我很确定你可以添加另一个-input参数。另见:Usingmultiplemapperinputsinonestreamingjobonhadoop? 关于具有多个参数的作业的Ha

流式 Hadoop section code stackoverflow hadoop-streaming

hadoop - 使用 Behemoth 在 Hadoop 上运行 UIMA 作业

我有一个功能齐全的UIMA作业，可以做简单的注释。我可以通过本地CASGUI成功启动它。我一直在尝试使用ApacheBehemoth在Hadoop上运行UIMA作业。我想知道是否有人为此工作过？作业运行成功，但在hadoop输出目录中；UIMA作业没有输出。我可以在Hadoop作业跟踪器输出中看到作业成功完成并将其输入数据复制到最终输出目录。谁能指出这里可能发生的事情，我们是否需要对UIMA代码进行任何其他更改？谢谢最佳答案以下是适用于我放在一起的小型管道的步骤:将您的UIMA管道导出为jar(Your-pipeline.jar

Behemoth hadoop section uima

java - 运行 Hadoop MapReduce 作业时获取文件名/文件数据作为 Map 的键/值输入

我完成了问题HowtogetFilename/FileContentsaskey/valueinputforMAPwhenrunningaHadoopMapReduceJob?这里。虽然它解释了这个概念，但我无法成功地将它转换为代码。基本上，我希望文件名作为键，文件数据作为值。为此，我按照上述问题中的建议编写了自定义RecordReader。但是我无法理解如何将文件名作为此类中的键。此外，在编写自定义FileInputFormat类时，我无法理解如何返回我之前编写的自定义RecordReader。RecordReader代码是:importjava.io.IOException;imp

MapReduce Hadoop Text code IOException java

hadoop - 按 hadoop mapreduce 作业的作业名称或 ID 查找作业状态

我是hadoop的新手，有疑问。我正在使用HadoopJobAPIv2提交(或创建)mapreduce作业(即命名空间mapreduce而不是旧的mapred)我根据自己的工作提交MR工作。我们在此表中维护Hadoop作业名称。我想跟踪提交的作业的进度(以及完成情况)，以便我们可以将自己的作业更新为已完成。所有JobStatusAPI都需要Job对象。而我们的“作业监控”模块没有任何作业对象。无论如何，您能否帮助我们获得给定工作名称的工作状态？我们确保作业名称是唯一的。最佳答案我谷歌了很多才找到下面的内容。这是要走的路吗？在给定

hadoop mapreduce code section

java - 在没有 Oozie 的情况下定期运行 MapReduce 作业？

我有一个mapreduce作业作为“jar”，应该每天运行。另外，我需要从远程Java应用程序运行这个jar。我如何安排它:即，我只想每天从我的远程Java应用程序运行作业。我读过有关Oozie的资料，但我认为它不适合放在这里。最佳答案看看Quartz.它使您能够运行独立的Java程序或在Web或应用程序容器(如JBoss或ApacheTomcat)中运行。特别是与Spring和Springbatch的集成很好。Quartz可以在java代码之外进行配置-在XML中，语法与crontab中的完全一样。所以，我发现它非常方便。ä可

MapReduce Oozie section noreferrer noopener java hadoop job-scheduling

powershell - HDInsight powershell 作业提交无法使用流式 C# 作业定义自定义 libjar

我在MicrosoftAzureHDInsight服务托管的hadoop集群上运行了C#作业。我必须直接在我的hdinsight服务器中使用hadoop命令行才能使用我的自定义Java输入格式:callbin\hadoopjarlib\hadoop-streaming.jar-D"mapred.max.split.size=33554432"-libjars"../mycustom-hadoop-streaming.jar"-inputformat"mycustom.hadoop.CombinedInputFormat"...(我删除了命令的其余部分)现在我正在尝试通过powershe

自定 powershell section hadoop templeton_doc_latest mapreduce hadoop-streaming azure-hdinsight

hadoop - 命令行编译 mapreduce 作业

大家。我最近成功地在我的电脑上安装了HDP2.0forwindows。也通过了HDP2.0提供的smoke-test示例。我正在尝试通过命令行编译我自己的mapreduce程序。我使用了命令行:`javac-classpathc:\hdp\hadoop-2.2.0.2.0.6.0-0009\hadoop-2.2.0.2.0.6.0-0009-core.jarwordcountclassWordCount.java然而，它不起作用。我发现我的c:\hdp\hadoop-2.2.0.2.0.6.0-0009hadoop-2.2.0.2.0.6.0-0009-core.jar/文件夹。我想知

mapreduce hadoop section code

hadoop - 在cloudera上提交hadoop作业

我想知道我们是否可以在亚马逊上设置一个cloudera集群，并从我的本地linux启动一个hadoop作业，而无需通过ssh进入亚马逊的节点。有没有客户端之类的东西来做这种沟通？最佳答案以下教程中的技巧确实有效。仅在他的指导下，您应该能够在20分钟内建立一个工作的Hadoop集群，从冷铁到生产就绪:HadoopQuickstart:BuildaClusterInTheCloudIn20Minutes真的值得一试。关于hadoop-在cloudera上提交hadoop作业，我们在St

hadoop cloudera section jobs