草庐IT

elastic-mapreduce-cli

全部标签

java - Hadoop:MapReduce MinMax 结果与原始数据集不同

我是Hadoop新手。我尝试使用MapReduce来获取每年的最小和最大每月降水值。这是一年的数据集:Productcode,Stationnumber,Year,Month,MonthlyPrecipitationTotal(millimetres),QualityIDCJAC0001,023000,1839,01,11.5,YIDCJAC0001,023000,1839,02,11.4,YIDCJAC0001,023000,1839,03,20.8,YIDCJAC0001,023000,1839,04,10.5,YIDCJAC0001,023000,1839,05,4.8,YIDC

hadoop - 运行 Mapreduce 程序时出错

在运行Map-reduce程序时出现以下错误。Theprogramistosorttheo/pusingTotalOrderpartition.Ihave2nodecluster.wheniruntehprogramwith-Dmapred.reduce.tasks=2itsworkingfineButitsfailingwithbelowerrorwhilerunningwith-Dmapred.reduce.tasks=3option.java.lang.RuntimeException:Errorinconfiguringobjectatorg.apache.hadoop.uti

log4j - 如何配置 hadoop mapreduce 以便我的 mapreduce 类的日志可以输出到文件?

我修改了$HADOOP_HOME/conf/log4j.properies但它并不像我期望的那样工作。如何解决这个问题? 最佳答案 检查类路径中是否有其他log4j.properties文件。log4j的一个问题是它从类路径中读取的最后一个log4j.properties将被实际使用。因此,如果您在类路径中有其他log4j.properties文件,那么其中一个文件可能会被选中。尝试合并所有这些log4j.properties文件,它应该可以工作。如果可以,还请发布log4j.properties文件的内容。那里也可能有问题。

hadoop - 在 Amazon MapReduce 上调用已编译的二进制文件

我正尝试在AmazonElasticMapReduce上进行一些数据分析。映射器步骤是一个python脚本,其中包括对名为“./formatData”的已编译C++二进制文件的调用。例如:#myMapper.pyfromsubprocessimport*inputData=sys.stdin.readline()#...p1=Popen('./formatData',stdin=PIPE,stdout=PIPE)p1Output=p1.communicate(input=inputData)result=...#manipulatetheformatteddataprint"%s\t%

eclipse - 尝试使用 eclipse Indigo 运行 MapReduce 作业时出错

我正在尝试使用hadoop-eclipse插件和EclipseIndigo运行MapReduce作业,但出现以下错误:错误:登录失败在寻求帮助时,我发现Hadoop-0.20.203.0存在问题,因此我尝试了Hadoop-0.20.205.0,因为此版本已修复问题。我仍然面临同样的问题。我是否遗漏了什么或犯了错误? 最佳答案 对不起,我的英语不好,因为你的问题没有更多的细节,我想你遇到了和我一样的问题,如果是的话,下面的链接解决了我的问题,请。注意步骤“4”。http://hi.baidu.com/wangyucao1989/blo

hadoop - 如何从 Windows 在亚马逊的弹性 mapreduce (emr) 集群上运行 mapreduce 作业?

我正在尝试学习如何在亚马逊的EMR上运行JavaMap/Reduce(M/R)作业。我关注的文档在这里http://aws.amazon.com/articles/3938.我使用的是Windows7计算机。当我尝试运行此命令时,会显示帮助信息。./elasticmapreduce-client.rbRunJobFlowstreaming_jobflow.json当然,因为我在Windows机器上,所以我实际上输入了这个命令。我不确定为什么,但是对于这个特定的命令,没有Windows版本(所有命令都成对显示,一个用于*nix,一个用于Windows)。rubyelastic-mapre

database - 结合 Hadoop MapReduce 和数据库查询

我正在运行的某个作业需要在处理一些大型HDFS文件之前从数据库(MySQL,尽管这不是很相关)收集一些元数据。此元数据将添加到文件中的数据中,并传递到后面的映射/合并/缩减阶段。我想知道放置此查询的“正确”位置可能在哪里。我需要元数据在映射器开始时可用,但将它放在那里似乎是多余的,因为每个映射器都将执行相同的查询。我如何(如果有的话)执行一次此查询并在所有映射器之间共享其结果?是否有一种通用方法可以在执行任务的所有节点之间共享数据(除了将其写入HDFS之外)?谢谢。 最佳答案 您可以在主函数中进行MYSql查询,查询结果可以存储在字

hadoop - 如何在一个终端提交多个 mapreduce 作业?

我正在使用mapreduce来运行程序,提交一个作业:我可以使用以下格式./hadoopjarprogram.jar参数在一个终端中,这可以提交一个作业,但是如果我要提交100个作业怎么办?不可能打开100个终端所以我正在寻找批量提交作业的方法,谢谢! 最佳答案 您在主方法中循环调用ToolRunner.run(..)。请务必修改您的工具实例以调用Job.submit()而不是Job.waitForCompletion()-确保您的作业更多地并行运行而不是顺序运行(您仍然受集群大小/配置可以并行运行的作业数量的限制):publicc

hadoop - 将 Hadoop MapReduce 限制为特定文件扩展名

我正在尝试在我的集群上运行MapReduce作业,该作业仅在特定文件扩展名上运行。我们有一堆位于集群上的异构数据,对于这个特定的作业,我只想在.jpg上执行。有没有一种方法可以在不限制映射器的情况下完成。执行作业时,这似乎应该很容易做到。我在想hadoopfsJobName/users/myuser/data/*.jpg/users/myuser/output之类的东西。 最佳答案 您的示例应该按编写的方式工作,但您需要检查调用setInputPaths(Job,String)方法的输入格式,因为这将解析glob字符串“/users

hadoop - 将 MapReduce Counter 值设置为某个值

我没有看到一开始就设置MapReduce作业的计数器值的直接方法吗?map/reduce任务之间的计数器增量原子操作也是如此吗? 最佳答案 不确定您在开始时设置计数器值是什么意思-您的意思是将计数器值初始化为0以外的值(您这样做的用例是什么?)。至于原子操作,计数器是为每个任务单独累加的。当任务完成时,计数器值被提交到全局总数(只有提交的任务被提交,所以如果你有两个任务正在运行,只有成功的任务计数器被提交。 关于hadoop-将MapReduceCounter值设置为某个值,我们在Sta