草庐IT

作业队

全部标签

java - 通过 java Processbuilder 提交 mapreduce 作业不会结束

我有一个jar文件形式的mareduce作业,比如“mapred.jar”。实际上,Jobtracker正在远程linux机器上运行。我从本地机器运行jar文件,jar文件中的作业被提交到远程jobtracker,它工作正常,如下所示:java-jarF:/hadoop/mapred.jar13/12/1912:40:27WARNmapred.JobClient:UseGenericOptionsParserforparsingthearguments.ApplicationsshouldimplementToolforthesame.13/12/1912:40:27INFOinput

java - 在 Hadoop 2.2.0 中运行作业的 IBM_JAVA 错误

Exceptioninthread"main"java.lang.NoSuchFieldError:IBM_JAVAatorg.apache.hadoop.security.UserGroupInformation.getOSLoginModuleName(UserGroupInformation.java:303)atorg.apache.hadoop.security.UserGroupInformation.(UserGroupInformation.java:348)atorg.apache.hadoop.mapreduce.task.JobContextImpl.(JobCo

java - 运行 Hadoop Map Reduce 作业,错误 : Unsupported major. 次要版本 51.0

我正在使用hadoop2.2.0在AmazonWebServicesRedHat6.4上运行map-reduce作业。我正在使用的Jar文件是在我的本地Windows7计算机上构建的。mapreduce作业在我的Windows7机器上本地安装的Hadoop上运行良好,但是当我尝试在Amazon实例上运行它时,我收到以下错误:Exceptioninthread"main"java.lang.UnsupportedClassVersionError:mapReduce/TestXMLConfig:Unsupportedmajor.minorversion51.0atjava.lang.Cl

hadoop - 为什么使用 c3.8xlarge 服务器的 AWS EMR 作业与使用 cc2.8xlarge 服务器的相同作业相比会严重滞后?

我怀疑这可能是AWS端的内部问题,但我想在这里发帖,因为我目前没有高级AWS支持(更新:已签名申请AWS支持,希望我能从他们那里得到答案)。我有一份经常性的EMR工作,最近我从使用cc2.8xlarge服务器切换到c3.8xlarge服务器。在我第一次使用新配置运行时,我的一个通常需要2-3分钟的map-reduce作业被卡住了,花费了超过9个小时将数据从映射器复制到唯一的reducer。我在9.5小时后终止了作业,重新尝试在新的EMR集群上启Action业,我在第一个小时内看到了相同的行为,因此再次终止了它。当我将工作切换回使用cc2.8xlarge服务器时,工作在2-3分钟内完成。

java - 如何增加 hadoop 中 map 任务的数量以及如何获取 hadoop mapreduce 作业所花费的总时间

我有一个数据集,我正在尝试在hadoop中进行分析。据我所知,它在少量数据中运行平稳。第一个查询:我想在大数据上对此进行测试,并找出当文件大小增加时完成任务需要多少时间。如何获得完成任务需要多少秒?是否有任何cmd行语法或类似的语法?第二个查询:dfs.replication设置为1inhdfs-core.xml文件。它只是复制输入数据,还是对mapreduce作业有一些影响?第三个查询:现在,我有一个单节点hadoop集群。如何知道它为给定输入文件生成的映射器的确切数量以及如何更改编号。映射器?实际上,我想获得完成不同编号下的任务所需的时间。的映射器。例如:首先我想用10个mappe

java - 在 eclipse 中调试 map reduce 作业

我想使用eclipse调试Map-reduce作业(pig、hive)。也就是说,在hadoop源java文件中设置断点并在运行map-reduce作业时检查元素。为此,我使用eclipse启动了所有服务,并且可以调试一些类文件。但是我不能创建一个完整的调试环境。谁能告诉我怎么做? 最佳答案 我不知道有什么eclipse工具可以满足您的需求。如果您正在寻找可能的解决方案,以下将适用于java。importjava.util.logging.Logger;为了调试javamapreduce文件,您可以为每个类(驱动程序、映射器、red

hadoop - JobTracker UI 不显示 hadoop 作业的进度

我正在单节点集群下测试我的MR作业。一旦我安装了mahout9版本,Mapreduce作业就停止在jobtracker中显示进度。(不知道安装mahout后是否发生了这种情况)当我在我的hadoop集群中运行一个作业时,它不会像以前那样在作业跟踪器UI中显示状态,并且在控制台中显示的执行日志也不同(类似于mahout日志)为什么会这样?提前致谢。 最佳答案 您的作业很可能正在使用LocalJobRunner运行.如果您的作业正在使用LocalJobRunner,您会注意到mapreduce作业输出中的mapred.LocalJobR

hadoop - 设置 Pig 作业的最小 reducer 数量

我想为我的PigJob设置要启动的最小reducer数量。我尝试使用:SETdefault_parallel57;但是,这会强制所有作业都必须有57个reducer。是否有任何我可以设置的设置强制PigJob具有至少57个或更多的reducer。 最佳答案 我认为这是不可能的。您可以将default_parallel设置为57,对于那些您希望拥有更多reducer的操作,您可以使用PARALLEL指定更高的数量。我知道这并不是您想要的。 关于hadoop-设置Pig作业的最小reduce

linux - cron 作业用于在 linux 中运行 hadoop 程序

我是两个linux新手,我的项目使用的是hadoop。现在我们编写了3个mapreduce程序,第一个程序的输出输入到第二个程序,第二个程序的输出输入到第三个程序。但是我们正在运行3个不同的conf意味着首先我们正在运行第一个程序的配置,然后是第二个,然后是第三个。现在我们想要两个一个接一个地运行所有3个程序是否可以在linux中使用cron作业如果是请提及步骤。我们想要两个使用cron作业,因为我们需要两个重复运行3个程序几个小时 最佳答案 1.使用&&创建一个shell脚本来顺序执行你的hadoop程序。执行你的第一个命令,然后

hadoop - mapreduce 作业未正确设置压缩编解码器

您好,我有一个MR2作业,它将使用snappy压缩的avro数据作为输入,对其进行处理并将数据输出到avro格式的输出目录中。期望这个输出avro数据也应该被快速压缩,但事实并非如此。MR作业是仅限map的作业。我在我的代码中设置了以下属性conf.set("mapreduce.map.output.compress","true");conf.set("mapreduce.map.output.compress.codec","org.apache.hadoop.io.compress.SnappyCodec");但输出仍然不是快速压缩 最佳答案