mapReduce_草庐IT

hadoop - Spark vs MapReduce，为什么Spark比MR快，原理？

据我所知，Spark将每个节点的磁盘(HDFS)中的数据预加载到每个节点的RDD中进行计算。但正如我猜测的那样，MapReduce必须还将数据从HDFS加载到内存，然后在内存中进行计算。那么..为什么Spark更快速？仅仅因为当MapReduce想要进行计算而Spark预加载数据时，MapReduce每次都将数据加载到内存中？非常感谢。最佳答案 Spark使用弹性分布式数据集(RDD)的概念，它允许透明地将数据存储在内存中，并在需要时将其保存到磁盘。另一方面，在Mapreduce中，在Map和reduce任务之后数据将被洗牌和排序

python - 如何从多个仅映射任务创建单个分布式内存映射？

我有几个异构输入需要用不同的映射器处理，以生成一个同质映射，之后可以通过单个缩减器的多个实例进行缩减。与连接所有映射器的输出并将它们提供给只会发出与接收到的结果相同的结果的id-mapper相比，它是否可以以更优雅的方式完成？我正在使用PythonHadoopStreamingAPI，因此它比使用MultipleInputsJava接口(interface)要复杂一些。最佳答案您正在寻找的是MultipleInputs。您应该为不同的异构输入编写不同的映射器。在您的驱动程序中，您应该将不同的路径映射到它们各自的映射器。所有这些m

java - Hadoop MapReduce - 按值求和和排序

我的一个friend在hadoopMapReduce上被问到这个问题-我们有多家商店，每家商店都有很多顾客来参观和购买东西。数据集由“Store#、Customer#、Quantitypurchased”组成。需要MapReduce代码来获取每家商店的前2位客户。我想到的解决方案是对qty进行二次排序(按降序排列-store+qty构成复合键)并且在reducer中只显示每个键(store+qty)的前2个值(或客户),qty是复合键的一部分)。如果客户是唯一的，这就可行，但如果客户多次访问同一家商店，那么我们该怎么做呢？解决方案是遍历每个值，为每个客户添加数量，在缩减程序中按数量排序

hadoop - Sqoop Import to Hive 在某个点无限期挂起

我正在尝试使用SqoopImport将mysql表导入Hive，但是在执行命令后，CLI保持平静，没有任何反应，并且无限期挂起。下面是命令和问题的详细信息..[cloudera@quickstartbin]$sqoopcreate-hive-table--connectjdbc:mysql://10.X.X.XX:XXXX/rkdb--usernameroot-P--tableemployee--hive-tableempsWarning:/usr/lib/sqoop/../accumulodoesnotexist!Accumuloimportswillfail.Pleaseset$A

r - 理解 R-Hive、Elastic MapReduce、RHIPE 和使用 R 的分布式文本挖掘

在我最近在Google实习期间学习了MapReduce来解决计算机视觉问题之后，我觉得自己像一个开明的人。我已经在使用R进行文本挖掘了。我想将R用于大规模文本处理和主题建模实验。我开始阅读教程并研究其中的一些。我现在将我对每个工具的理解写下来:1)R文本挖掘工具箱:用于本地(客户端)文本处理，它使用XML库2)Hive:Hadoopinterative，提供调用map/reduce的框架，也提供DFS接口(interface)，用于在DFS上存储文件。3)RHIPE:RHadoop集成环境4)ElasticMapReducewithR:一个为那些没有自己的集群的人准备的MapReduc

java - 具有递归 Map 的 Hadoop MapReduce

我需要用Java做一个MapReduce应用程序，它需要自动递归，这意味着对于处理的每一行输入文件，它必须检查输入/映射条目的所有行是否有条件，并由函数验证。或者，换句话说，Reducer应该为接收到的每一对(键、值)调用/读取所有Map。在Hadoop框架上实现它的最佳方式是什么？我可以通过读取输入n次或将输入加载到HashMap中来以编程方式执行此操作，但我认为在MapReduce范例中可能会完成这一切。感谢您的帮助/提示!编辑:更多细节，我有(作为其他工作的结果)问题空间分区列表(索引，计数)并希望作为输出(索引，sumOfNearestNeighborsCounts)，所以对于

algorithm - 用于从图中删除循环的 Map Reduce 算法

这question对于检测有向图中的循环有一个很好的答案。不幸的是，制作它的MapReduce版本似乎并不容易。具体来说，我对用于从有向图中删除循环的MapReduce算法感兴趣。我已经使用广度优先搜索(BFS)算法进行了评估，但我看到的一个问题是可能会同时删除两个不同的边以切断一个循环。这种情况的影响是可以删除太多边。重要的是删除循环，同时尽量减少删除的边数。有证明的方案优先!谢谢。最佳答案您需要一个迭代mapreduce来实现这个算法。参见http://www.iterativemapreduce.org/对于以迭代mapr

logging - 如何在控制台上抑制 Hadoop 日志消息

这些是我试图压制的Hadoop日志消息11/10/1719:42:23INFOmapred.MapTask:(EQUATOR)0kvi26214396(104857584)11/10/1719:42:23INFOmapred.MapTask:mapreduce.task.io.sort.mb:10011/10/1719:42:23INFOmapred.MapTask:softlimitat8388608011/10/1719:42:23INFOmapred.MapTask:bufstart=0;bufvoid=10485760011/10/1719:42:23INFOmapred.Ma

hadoop 将\r\n 转换为\n 并破坏 ARC 格式

我正在尝试使用hadoop流解析来自commoncrawl.org的数据。我设置了一个本地hadoop来测试我的代码，并有一个使用流式ARCfile读取器的简单Ruby映射器。当我自己调用我的代码时cat1262876244253_18.arc.gz|mapper.rb|reducer.rb它按预期工作。似乎hadoop自动发现该文件具有.gz扩展名并在将其交给映射器之前对其进行解压缩-然而在这样做时它会将流中的\r\n换行符转换为\n。由于ARC依赖于标题行中的记录长度，因此更改会破坏解析器(因为数据长度已更改)。为了仔细检查，我更改了我的映射器以期望未压缩的数据，并且做了:cat1

java - 从系统读取文本文件到 Hbase MapReduce

我需要从文本文件加载数据到MapReduce，我在网上搜索过，但没有找到适合我工作的解决方案。是否有任何方法或类可以从系统读取文本/csv文件并将数据存储到HBASE表中。最佳答案要从文本文件中读取，首先文本文件应该在hdfs中。您需要为作业指定输入格式和输出格式Jobjob=newJob(conf,"example");FileInputFormat.addInputPath(job,newPath("PATHtotextfile"));job.setInputFormatClass(TextInputFormat.class