草庐IT

shift-reduce

全部标签

java - Hadoop: reducer 的数量不等于我在程序中设置的数量

我在mapred-site.xml中将mapred.tasktracker.reduce.tasks.maximum设置为10,并且我还在我的文件中写了jobConf.setNumReduceTasks(5)工作。如果我在Shell中运行该作业,一切正常。但是当我通过eclipse运行相同的作业时,只有一个reducer被启动。我尝试在eclipse中编辑Map/ReduceLocations,并将mapred.reduce.tasks设置为10。但这仍然不起作用。我可以在eclipse中调整任何其他参数吗? 最佳答案 在eclip

hadoop - 在 Map/Reduce 中计算排名

我有一个很难用SQL解决的简单问题,我想知道它是否可以在map-reduce系统中完成。我想生成排名。想象一下亚马逊购买数据库(大大简化)ORDERSISBNcopies_purchasedAAAA5AAAA1BBBBB3BBBBB4CCCC3我要制作排名表rankISBNcopies_purchased1BBBB72AAAA63CCCC3计算的copies_purchased的map-reduce是显而易见的;至少对我来说,计算排名没那么重要。(这不是作业问题。我的实际工作需要这个。那个更好吗?)编辑我认为从标题、标签和问题的文本中可以看出这一点,但这不是SQL问题。我想知道如何在m

java - Hadoop MapReduce Java 实现中的 Reducer

我正在HadoopMapReduceFramework中编写一个Java实现程序。我正在编写一个名为CombinePatternReduce.class的类.为了在Eclipse中调试reducer,我写了一个main()功能如下:@SuppressWarnings("unchecked")publicstaticvoidmain(String[]args)throwsIOException,InterruptedException{Textkey=newText("key2:::key1:::_performsbetterthan_");IntWritablecount5=newIn

java - 如何过滤 Hadoop map/reduce 作业输出文件中的键或值?

通常,Hadoopmap/reduce作业会生成写入作业输出文件的键值对列表(使用OutputFormat类)。很少情况下,键和值都有用,通常键或值都包含所需信息。是否有一个选项(在客户端)抑制输出文件中的键或抑制输出文件中的值?如果我只想为一项特定工作执行此操作,我可以创建新的OutputFormat忽略键或值的实现。但我需要可重复用于更多工作的通用解决方案。编辑:您可能不清楚我所说的“我需要可重复用于更多工作的通用解决方案”是什么意思。让我举例说明一下:假设我有很多准备好的Mapper、Reducer、OutputFormats类。我想将它们组合到不同的“作业”并在不同的输入文件上

hadoop - 远程执行 Hadoop 作业时 reduce 阶段异常

我有一个运行1.0.4的小型10节点hadoop集群,我正在尝试对其进行设置,以便我能够从网络上不是NameNode的机器提交作业。我有一个简单的示例设置,我使用ToolRunner执行作业,buildJobConf手动,并使用JobClient.submitJob()提交.当我从NameNode运行它时,一切都按预期工作。当我从网络中的任何其他节点运行时,作业被提交并且所有map任务成功完成,但所有reduce任务失败并出现以下异常:org.apache.hadoop.util.DiskChecker$DiskErrorException:Couldnotfindoutput/map

Eclipse Map and Reduce 插件和 Hadoop 教程

我是Hadoop的新手,我正在学习这个Yahoo教程(http://developer.yahoo.com/hadoop/tutorial/)。我目前正在尝试配置eclipse和mapandreduce插件以连接到虚拟机。我需要配置的设置之一是hadoop.job.ugi。它不会出现在插件的“高级设置”选项卡下。如果没有这个设置,插件似乎没有用,因为它无法连接到VM。有什么建议么?我多次用谷歌搜索这个问题都无济于事。还有,有人知道更多Hadoop教程吗?Yahoo似乎是唯一从完全初学者的角度出发的可用网站。我试图以Cloudera作为起点,但我很难找到适合初学者的文档。也许我错过了什么

Hadoop 如何分配给 reducer 来处理不平衡负载 - CustomPartition

我有一个必须在多个输出中输出的mapreducer作业,我在这个例子中使用multipleOutputFormat:http://grepalex.com/2013/05/20/multipleoutputs-part1/这是挑战:如果我的分区器向每个reducer发送一个key(假设key指的是单独的输出文件),那么我的一些具有大量数据的reducer将永远占用。如果我的分区器随机发送每个缩减器(theKey+randomNumber),那么许多缩减器写入多个输出,我有IO问题。作为解决方案:选项1:根据权重将键分配给reducer。所以所有的reducer都有相同的负载。(1个大k

hadoop - Hadoop 中没有 Reducer 的组合器

我可以编写仅包含Mappers和Combiners的Hadoop代码(即没有缩减器的小型缩减器)吗?job.setMapperClass(WordCountMapper.class);job.setCombinerClass(WordCountReducer.class);conf.setInt("mapred.reduce.tasks",0);我试图这样做,但我总是看到我在工作跟踪器链接上有一个reducetaskLaunchedreducetasks=1如何在保留合并器的同时删除缩减器?这可能吗? 最佳答案 在您描述的情况下,您

hadoop - Oozie map-reduce 作业永远停留在 PREP 状态

我正在尝试运行wordcountmap-reduce示例,引用https://support.pivotal.io/hc/en-us/articles/203355837-How-to-run-a-Map-Reduce-jar-using-Oozie-workflow.我在集群设置中使用hadoop2.2.0问题是我的ooziemap-reduce作业一直在运行。它没有给出任何错误,但没有成功完成。没有错误消息。也没有创建输出目录(这是假设发生的)。下面是workflow.xml${jobTracker}${nameNode}mapred.mapper.new-apitruemapre

hadoop - Map Reduce - 如何规划数据文件

我想使用AWSEMR查询我将写入S3的大型日志文件。我可以按照自己喜欢的方式设计文件。数据以10K条目/分钟的速率创建。日志由几十个数据点组成,我想收集很长一段时间(几年)的数据来比较趋势等。创建将存储在S3上并由AWSEMR集群查询的此类文件的最佳实践是什么?最佳文件大小是多少?我是否应该按小时创建单独的文件?命名文件的最佳方式是什么?我应该将它们放在每天/每小时的桶中还是都放在同一个桶中?处理一段时间后添加一些数据或更改我使用的数据结构等事情的最佳方法是什么?我应该压缩一些东西,例如通过在url中省略域名还是保留尽可能多的数据?是否有分区之类的概念(数据基于100个网站,因此我可以