Reduce_草庐IT

hadoop - Map Reduce 输出到 CSV 还是我需要键值？

我的map函数产生一个键\t值值=列表(值1、值2、值3)然后我的reduce函数产生:Key\tCSV-Line例如2323232-2322fdsfs,sdfs,dfsfs,0,0,0,2,fsda,3,23,3,s,2323555-22222dfasd,sdfas,adfs,0,0,2,0,fasafa,2,23,s例。原始数据:232342|@3423@|34343|sfasdfasdF|433443|Sfasfdas|324343x1000无论如何，我想删除开头的key，这样我的客户就可以直接导入到mysql中。我有大约50个数据文件，我的问题是在它映射一次并且reducer启

aggregate - Elastic MapReduce 中的可用缩减器

我希望我是以正确的方式提出这个问题。我正在学习使用ElasticMapReduce的方法，并且看到了很多关于可与“流式”作业流一起使用的“聚合”reducer的引用资料。在Amazon的“AmazonElasticMapReduce简介”PDF中，它指出“AmazonElasticMapReduce有一个名为aggregrate的默认缩减器”我想知道的是:还有其他可用的默认reducer吗？我知道我可以编写自己的reducer，但我不想最终编写已经存在的东西并“重新发明轮子”，因为我确信我的轮子不会像原来的那样好。最佳答案他们引

缩减 aggregate section reducer amazon hadoop mapreduce reduce

map - Hadoop:键和值在输出文件中以制表符分隔。如何做到以分号分隔？

我认为标题已经解释了我的问题。我要改变key(tabspace)value进入key;value在所有输出文件中，reducer从映射器的输出中生成。我无法使用谷歌找到关于此的良好文档。任何人都可以提供一小部分代码来说明如何实现这一目标吗？最佳答案将配置属性mapred.textoutputformat.separator设置为";" 关于map-Hadoop:键和值在输出文件中以制表符分隔。如何做到以分号分隔？，我们在StackOverflow上找到一个类似的问题：

制表符分号 section code 中生 map hadoop mapreduce reduce

hadoop - 如何解压以snappy结尾的hadoop reduce输出文件？

我们的hadoop集群使用snappy作为默认编解码器。Hadoop作业减少输出文件名类似于part-r-00000.snappy。JSnappy无法解压缩文件bczJSnappy要求文件以SNZ开头。reduce输出文件以某种方式从一些字节0开始。如何解压文件？最佳答案使用“Hadoopfs-text”读取此文件并将其通过管道传输到txt文件。例如:hadoopfs-textpart-r-00001.snappy>/tmp/mydatafile.txt 关于hadoop-如何解压以

hadoop snappy section

hadoop - 使用自定义可写从 Hadoop Map Reduce 作业输出列表

我正在尝试通过更改hadoop给出的字数示例来创建一个简单的mapreduce作业。我试图列出一个列表而不是单词数。wordcount示例给出以下输出hello2world2我正在努力让它以列表的形式输出，这将构成future工作的基础hello11world11我认为我在正确的轨道上，但我在编写列表时遇到了问题。而不是上面的，我得到Hellofoo.MyArrayWritable@61250ff2Worldfoo.MyArrayWritable@483a0ab1这是我的MyArrayWritable。我在write(DataOuptutarg0)中放了一个sysout但它从不输出任何

自定 hadoop IntWritable MyArrayWritable code mapreduce

Hadoop:如何访问(许多)要由 map/reduce 处理的照片图像？

我在本地文件系统上保存了超过1000万张照片。现在我想通过它们中的每一个来分析照片的二进制文件，看看它是否是一只狗。我基本上想在集群hadoop环境中进行分析。问题是，我应该如何设计map方法的输入？比方说，在map方法中，newFaceDetection(photoInputStream).isDog()是分析的所有底层逻辑。具体来说，我应该将所有照片上传到HDFS吗？假设是，如何在map方法中使用它们？是否可以将输入(到map)作为包含所有照片路径(在HDFS中)的文本文件，每行，并在map方法中加载二进制文件，如:photoInputStream=getImageFromHDFS

许多 Hadoop code section map mapreduce hdfs

hadoop - Hadoop Map Reduce 代码的前 N 个值

我是hadoop世界的新手，正在努力完成一项简单的任务。任何人都可以告诉我如何通过仅使用Mapreduce代码技术来获取单词计数示例的前n个值吗？我不想为这个简单的任务使用任何hadoop命令。最佳答案您有两个明显的选择:有两个MapReduce作业:WordCount:计算所有的单词(几乎就是这个例子)TopN:一个MapReduce作业，用于查找某事物的前N个(这里有一些示例:sourcecode、blogpost)将WordCount的输出写入HDFS。然后，让TopN读取该输出。这称为作业链，有多种方法可以解决此问题

hadoop section MapReduce WordCount

hadoop - 在 map reduce 中计算中位数

有人可以举例说明mapreduce中中位数/分位数的计算吗？我对Datafu中位数的理解是，'n'个映射器对数据并将数据发送到负责排序的“1”reducer来自n个映射器的所有数据并找到中位数(中间值)我的理解正确吗？，如果是这样，这种方法是否适用于海量数据，我可以清楚地看到一个单一的reducer努力完成最后的任务。谢谢最佳答案试图在一系列中找到中位数(中间数)将需要1个reducer传递整个数字范围以确定哪个是“中间”值。根据输入集中值的范围和唯一性，您可以引入组合器来输出每个值的频率-减少发送到单个缩减器的映射输出数量。然

中计 hadoop reducer section 中值 statistics mapreduce apache-pig median

hadoop - Hadoop 中的拆分大小与 block 大小

Hadoop中分割大小和block大小之间的关系是什么？正如我在this中读到的那样，拆分大小必须是block大小的n倍(n是一个整数且n>0)，这是正确的吗？splitsize和blocksize之间有什么必然的关系吗？最佳答案 HDFS架构中有block的概念。HDFS使用的典型block大小为64MB。当我们将一个大文件放入HDFS时，它被分成64MB的block(基于block的默认配置)，假设你有一个1GB的文件并且你想将该文件放入HDFS，那么将有1GB/64MB=16个拆分/block，这些block将分布在Data

hadoop block Reduce section mapreduce hdfs

EC2 上的 Hadoop 与 Elastic Map Reduce

我正在尝试评估这两个选项之间的差异。以下是我能想到的一些优缺点:ElasticMapReduce=>来自Amazon的更好支持，无需管理集群，更昂贵(？)EC2+Hadoop=>更多地控制您的hadoop配置，更便宜(？)我想知道是否有人针对EMR对EC2+Hadoop的性能进行了基准测试？大型集群部署的成本是否有显着差异？还有哪些区别？最佳答案我们在工作中使用这两种方法(EMR和EC2)。Amar提到的EMR的优势或多或少是正确的:因此，如果您想要简单，它可能是可行的方法。但是还有其他的考虑:EMR的版本远远落后于apache

Elastic Hadoop 205 section amazon-web-services