草庐IT

reduce_dim

全部标签

python-2.7 - MRJob 中没有 mapper() 的 reduce() 会做什么?

我是python的新手,正在尝试按照说明http://www.yekeren.com/blog/archives/1005构建推荐系统,让我困惑的是:defreducer3_init(self):self.pop={}file=open(self.options.item_pop,"r")forlineinfile.readlines():movieid_jstr,pop_jstr=line.strip().split("\t")movieid=json.loads(movieid_jstr)pop=json.loads(pop_jstr)self.pop[movieid]=popfi

java - hadoop 中的 reduce 函数不起作用

我在学习hadoop。我用Java编写了简单的程序。程序必须对单词进行计数(并创建包含单词和每个单词出现次数的文件),但程序只创建一个包含所有单词的文件,并且每个单词附近都有数字“1”。它看起来像:部门1部门1部门1部门1rmdaxsxgb1但是我想要:命令4rmdaxsxgb1据我了解,仅适用于map功能。(我尝试注释reduce函数,结果相同)。我的代码(是一个典型的例子,mapreduce程序,可以在网上或者hadoop相关书籍中轻松找到):publicclassWordCount{publicstaticclassMapextendsMapper{privatefinalsta

java - Reduce 任务被 Hadoop 多节点 (10x) 集群中的太多获取失败消息停止

我将Hadoop1.0.3用于一个10桌面集群系统,每个系统都有Ubuntu12.04LTS32位操作系统。JDK是7u75。每台机器有2GBRAM和core2-duo处理器。对于一个研究项目,我需要运行一个类似于“字数统计”的hadoop作业。我需要对大量数据集运行此操作,例如至少1GB的大小。我正在尝试使用hadoop的示例jarhadoop-examples-1.0.3.jar来计算输入数据集的单词数。不幸的是,我无法运行任何输入数据超过5-6MB的实验。对于输入,我使用来自https://www.gutenberg.org的纯文本共振峰故事书.我还使用了来自https://ww

java - Hadoop - reducer 未启动

我正在尝试在Hadoop2.6.0上为单节点集群运行开源kNN加入MapReducehbrj算法-我的笔记本电脑(OSX)上安装了伪分布式操作。这是代码。Mapper、reducer和主驱动:publicclassRPhase2extendsConfiguredimplementsTool{publicstaticclassMapClassextendsMapReduceBaseimplementsMapper{publicvoidmap(LongWritablekey,Textvalue,OutputCollectoroutput,Reporterreporter)throwsIOE

hadoop - 在 Oozie 中为 Map-Reduce 作业指定驱动程序

${jobTracker}${nameNode}mapred.input.dir${inputDir}mapred.output.dir${outputDir}mapred.job.queue.name${queueName}mapred.reduce.tasks${numberofReducers}mapred.reducer.new-apitruemapred.mapper.new-apitrueMap/Reducefailed,errormessage[${wf:errorMessage(wf:lastErrorNode())}]我正在尝试使用Oozie运行map-reduce作

java - Hbase Map-Reduce 函数类路径问题

我正在尝试运行找到的SampleUploader.java代码here我正在使用HBase0.98.6-cdh5.3.0和Hadoop2.5.0-cdh5.3.0。为了编译我运行:hadoopcom.sun.tools.javac.MainSampleUploader.java但后来我遇到很多错误,例如:SampleUploader.java:24:error:packageorg.apache.hadoop.hbasedoesnotexistimportorg.apache.hadoop.hbase.HBaseConfiguration;啊哈!我从未包含hbase类路径。所以现在我尝

Java Map Reduce 从不同格式读取 - Avro、文本文件

我有几个Hive表,其中一些是Avro格式,一些是纯文本文件。模式略有不同,但都包含我需要的某些属性。我打算编写一个mapreduce作业来处理数据。问题是我正在努力避免大量单独的工作,并尽可能地简化流程。祈祷我只需要写一份工作。是否有任何示例说明如何在一个映射器中读取不同格式的输入。例如,我在AVRO中有一个我知道的hdfs路径,我还有另一个hdfs路径,其中数据位于纯文本文件中。//Pseudocodemapper(Paths){for(PathinPaths){ifPath.containsAvro(){...readasavro}else{...readastextfile}.

hadoop - 在 reducer 函数中选择 max key

这个问题在这里已经有了答案:Findingbiggestvalueforkey(1个回答)关闭7年前。我对reducer的理解是,它从sort和shuffle的中间o/p文件中处理一对键值对。我不知道如何访问具有排序和混洗键值对的中间文件。一旦无法访问中间文件,就无法在reducer模块中编写代码来选择最大的key。我不知道如何对一次接收一对K、V的reducer进行编程,以仅将最大的键及其对应的值打印到最终输出文件。假设这是来自映射器的中间文件,它也经过了排序和混洗..1个2是4这是什么我希望reducer在最终输出文件中只打印“4thiswhat”。由于reducer的内存中没有整

json - 将数据加载到 hadoop 的推荐格式,用于简单的 map reduce

目前,我正在将大量数据从s3加载到我们的redshift集群中(每秒10k行左右?)。这成为尝试对数据运行任何查询的问题,因为即使在尝试汇总几个小时的数据时,我们也会遇到内存不足错误。我想做的是对数据运行mapreduce作业,然后只加载聚合。我知道这应该是一项相当容易的任务,但我是hadoop的新手,而且我有点卡在第一步中。设置EMR集群(完成)将数据加载到HDFS(我认为这是我应该做的)目前所有数据都被加载到S3gzippedJSON文件中(使其易于加载到redshift中)。我必须更改文件格式才能将其放入hadoop中吗?每个S3文件都采用类似于此形式的内容:{"timestam

Hadoop 并行运行 reducer

我有一个4G文件,大约有16条磨线,map正在运行,15张map中有6张平行分布。生成35000个key。我正在使用MultipleTextoutput,因此每个reducer都会生成一个独立于其他reducer的输出。我已经为conf配置了25-50个reducer,但它总是一次运行1个reducer。机器-4核32Gram单机运行hortonworks堆栈如何让1个以上的reduce任务并行运行? 最佳答案 看看hadoopMapReduceTutorialHowManyReduces?Therightnumberofreduc