草庐IT

reducer-combiner

全部标签

java - Apache gora,在reducer中设置新表名的位置

我有一个基本上是ApacheGora的HbaseMapreduce作业的应用程序。我想将一个Hbase表数据复制到一个新表,这是一个非常简单的案例。在哪里写新表名。我评论了thisGuide但找不到放置新表名的位置。以下是代码片段,/*MappersareinitializedwithGoraMapper.initMapper()or*GoraInputFormat.setInput()*/GoraMapper.initMapperJob(job,inStore,TextLong.class,LongWritable.class,LogAnalyticsMapper.class,tru

map - hive 有自己的 map reduce 程序吗?

我想在我的应用程序上实现hive+hadoopmapreduce程序,我仍然想知道,因为我已经尝试了很多次关于在hive中查询和查找有关mapreduce程序的信息..我的问题是,hive有自己的mapreduce程序吗?因为当我尝试一个有点复杂的查询时,日志是这样的:Jobrunningin-process(localHadoop)2011-05-2614:10:02,004nullmap=100%,reduce=100%EndedJob=job_local_0001在该查询中有mapreduce过程,然后如果我尝试在google上搜索一些在hive中实现的mapreduce程序,也

hadoop - Map reduce value list顺序问题

正如我们所知,Hadoop按键对值进行分组,并将它们发送到同一个reduce任务。假设我在hdfs上的文件中有下一行。第1行2号线3号线....亚麻在maptask中,我打印文件名和行。在reduce中,我收到了不同的订单。例如key=>{line3,line1,line2,....}现在,我有下一个问题。我想得到这个值列表,以便它们位于文件中,作为key=>{line1,line2,...linen}有什么办法吗? 最佳答案 如果您使用TextInputFormat,你会得到一个作为映射器输入。LongWritable部分(或键)

java - 重新运行 Hadoop 作业,分区的 mapoutput 是否仍会转到相同的 Reducers?

在hadoop中,假设节点的数量是固定的(在运行期间没有服务器崩溃),如果我使用相同的分区器(例如,在映射输出的键上进行哈希分区)来分区映射器输出,并且我执行读取同一个数据集两次的作业。确定同一个key的数据会去同一个reducer吗?谢谢例如,我的map输出包含两行:键|值一个|任何东西乙|任何东西假设,我有两个reducer1和2。在第一次运行中,行“A|anything”进入reducer1,“B|anything”进入reducer2。如果我再次运行,是否有可能“A|anything”进入reducer2,而“B|anything”进入reducer1?谢谢!

configuration - Hadoop 推荐素数的 map/reduce 任务?

我在模板配置文件中看到了这些:mapred.map.tasks2Thedefaultnumberofmaptasksperjob.Typicallysettoaprimeseveraltimesgreaterthannumberofavailablehosts.Ignoredwhenmapred.job.trackeris"local"....mapred.reduce.tasks1Thedefaultnumberofreducetasksperjob.Typicallysettoaprimeclosetothenumberofavailablehosts.Ignoredwhenmap

hadoop - 如何根据集群中处理节点的数量在运行时设置reducer的数量

有没有办法根据处理节点的总数在运行时设置此信息?job.setNumReduceTasks(NO_OF_REDUCERS);所以,假设我在一台刚刚配置了节点的个人笔记本电脑上编译我的代码,那么它应该将reducers的数量设置为1。但是,如果我为一个真正的大型集群编译它,那么它应该相应地设置。 最佳答案 查看org.apache.hadoop.mapreduce.ClusterMetrics;应该包含获取您正在寻找的信息的功能。我把它记在笔记里是为了别的;但这应该提供您正在寻找的集群信息以及一些其他详细信息。我正在研究它的reduc

hadoop - 为什么在一个 Hadoop 作业中只使用 1 个 map 和 1 个 reduce 任务以及 1 个节点?

我已经配置了一个3节点集群来运行wordcountmapreduce程序。我正在使用一本书,其大小为659kb(http://www.gutenberg.org/ebooks/20417)作为测试数据。有趣的是,在该作业的WebUI中,仅涉及1个map、1个reduce和1个节点。我想知道这是否是因为数据量太小。如果是,我可以手动设置将数据拆分到多个节点上的不同map吗?谢谢,艾伦 最佳答案 默认block大小为64MB。所以是的,该框架确实只为每种类型分配一项任务,因为您的输入数据较小。1)您可以提供超过64MB的输入数据,然后看

r - 如何在Rhadoop中的rmr map reduce中捕获R后台代码

我是RHadoop的新手。我能够使用Hadoop运行rmr包的mapreduce功能。基本上在后台R在Java中运行这个映射减少代码。意思是R把这个R的mapreduce代码转成Java,所以能不能在运行mapreduce的时候得到java后台代码。谁能帮帮我? 最佳答案 在Rhadoop中,R并没有将RMapReduce代码转换为java。Rhadoop提供了MapReduce接口(interface);mapper和reducer可以用R代码描述,然后从R中调用。RhadooppackagewillsubmitRcodetoHa

hadoop - 如何从 reducer 中获取一个键值对作为输出

我是HadoopMapreduce的新手。我有一个要求,假设我想找到分数最高的学生姓名。考虑样本数据集哈利数学80哈利物理学67雏菊科学89雏菊物理90格雷格数学70格雷格化学79我知道reducer会遍历每个唯一键,因此我将获得3个输出键值对,其中包含名称和总分。但我需要总分最高的学生姓名,即。reducer输出->Daisy179以下是我写的reduce函数:staticintmaxMark=0;staticTextname=newText();publicstaticclassReduceextendsMapReduceBaseimplementsReducer{publicvo

hadoop - 强制 Hadoop 运行具有多个 reducer 的应用程序

我有一个HadoopMap-reduce应用程序,其代码中包含以下行(将reducer的数量设置为1)。job.setNumReduceTasks(1)我想用多个reducer运行这个应用程序,所以我尝试将以下XML代码添加到$HADOOP_CONF_DIR/mapred-site.xmlmapreduce.job.reduces2但是,代码仍然使用1个reducer运行。有没有办法强制hadoop应用程序与2个reducer一起运行,或者应用程序代码的优先级是否总是更高? 最佳答案 在这种情况下,您需要修改代码,因为对job.se