草庐IT

Using-Elastic-Map-Reduce-via-Comm

全部标签

hadoop - Elastic MapReduce (EMR) 的扩展?

我正在评估EC2/EMR用于运行约20个节点的Hadoop集群。(customJAR集群)。我已经在单节点3.3GHz2GBRAM本地VMWare实例上运行了简单的WordCount示例,该实例只需不到10秒即可完成。WordCount示例需要3分钟才能在EMR上完成2c1.mediumm实例(不包括3-5分钟的启动时间)。2个m1.small实例花费相同的时间。在EMR上运行作业会有一些开销,也许这个问题规模太小,所以这似乎可以理解。大约在什么规模的问题上,您开始看到云的性能优势?或者大约有多少个节点或计算单元? 最佳答案 如果您

hadoop - 运行 hadoop 以处理全天空 map 中的源

我有几十张全天空图,每张二进制格式(FITS)大约600MB。对于每张天空图,我已经有几千个源位置的目录,即恒星、星系、radio源。对于每个来源,我想:打开全天map提取相关部分,通常不超过20MB对它们进行一些统计将输出汇总到目录中我想运行hadoop,可能通过streaming接口(interface)使用python来并行处理它们。我认为映射器的输入应该是目录的每条记录,然后python映射器可以打开全天空图,进行处理并将输出打印到stdout。这是一种合理的方法吗?如果是这样,我需要能够配置hadoop,以便将完整的天空map本地复制到正在处理其来源之一的节点。我怎样才能做到

hadoop - map reduce 链接未正确执行

你好,我发现mapreduce链有点问题。我必须形成这样的链映射器->reducer->映射器从我的第一个mapper到reducer的流程一直很好,这个reducer的输出数据不能正确地转到下一个mapper。这是我尝试过的一个简单的代码示例这是我的第一个映射器publicvoidmap(LongWritablekey,Textvalue,OutputCollectoroutputCollector,Reporterreporter)throwsIOException{StringmaxSalary=value.toString().split(",")[4];outputColle

hadoop - Pig - map 缩减模式下的权限被拒绝

我正在尝试使用PigStorage从hdfs加载一个csv文件,限制输出bt一条记录并转储。我的hdfs快照:我在一台从机上运行一个2节点集群,其中有1个主节点(NN和SecNN)和1个数据节点和作业跟踪器。我的pig脚本在数据节点上运行。使用根用户grunt>x=load'/user/hadoop/input/myfile.csv'usingPigStorage(',')as(colA:chararray);grunt>y=limitx1;grunt>dumpy;控制台日志:>HadoopVersionPigVersionUserIdStartedAtFinishedAt>Featu

java - 使用 hadoop map reduce 处理 HTML 文件

我在hdfs中有一个输入文件夹,其中包含数千个HTML文件:/data/htmls/1/(HTMLfiles)/data/htmls/2/(HTMLfiles)../data/htmls/n/(HTMLfiles)我有一个java函数,它将HTML文件作为输入并对其进行解析,我想在映射器函数中读取这些HTML文件并将它们作为输入提供给解析器函数。因为输入文件是通过map函数逐行处理的,有没有办法处理HTML文件? 最佳答案 我不确定它的效果如何,但是MahoutXmlInputFormat是一个体面的XML阅读器。您也许可以将其调整

hadoop - 前 10 个路径缩减图 reduce

我正在做一个需要路径导航图的项目。问题描述:为了提供项目上下文,示例UI应类似于:http://bl.ocks.org/mbostock/4063570.区别在于它将用于站点导航。我的问题是在后端处理数据。对于用户路径A->B->C->D->E我预先计算的数据格式如下所示:Origin:Start:End:LevelAABL1ABCL2ACDL3ADEL4现在,假设我有数百万条这样的记录,其中有100个起源,我可以将它们分组,聚合大小并按大小desc排序并取前10个。因此对于每个起源、开始和级别,我应该有10个记录每一个。因此,对于4个级别的图表,对于图表中给定的起始节点,我将有10.

hadoop - map 减少烟雾测试的错误

我已经在我的机器上使用hartonworksmsionwindows配置了hadoop。当我运行run-somketest.cmd时出现以下错误java.net.ConnectException:CalltoDEV144/192.168.137.1:8020failedonconnectionexception:java.net.ConnectException:Connectionrefused:nofurtherinformationatorg.apache.hadoop.ipc.Client.wrapException(Client.java:1147)atorg.apache.

hadoop - 将来自不同文件夹的 map-reduce 输出合并到单个文件夹中

我在分布在多个文件夹中的网格上有map-reduce输出。每个文件的格式都是一样的。每个文件夹都有一堆文件:示例:/folderpath/folder1/part-r-00001到/folderpath/folder1/part-r-00100.../folderpath/foldern/part-r-00001到/folderpath/foldern/part-r-00100将内容组合在一起的最简单方法是什么,即将文件聚合到单个文件夹中(我想稍后使用)/folderpath/merged/part-r-0000*.../folderpath/merged/part-r-000n我可以

python - Map-Reduce/Hadoop 按整数值排序(使用 MRJob)

这是一个简单的Map-Reduce排序功能的MRJob实现。在beta.py中:frommrjob.jobimportMRJobclassBeta(MRJob):defmapper(self,_,line):""""""l=line.split('')yieldl[1],l[0]defreducer(self,key,val):yieldkey,[vforvinval][0]if__name__=='__main__':Beta.run()我使用文本运行它:112438424755610711可以使用:cat|pythonbeta.py现在的问题是假设键的类型为string(这里可能就

java - 在 reduce 函数的参数中将 HashSet<Text> 作为 Iterable<Text> 传递 - HADOOP

我有一个HashMap,我想通过重载run方法将它的值传递给hadoop中的reduce函数。reduce函数接受Iterable。有没有办法做到这一点?预先感谢您的帮助。 最佳答案 HashSet(如文章标题)已经是可迭代的。通过它。如果您按照帖子正文所述使用map,则可以通过任何合适的:yourMap.keySet();//setofKyourMap.valueSet();//setofVyourMap.entrySet();//setofMap.Entry 关于java-在redu