mapreduce_shuffle

hadoop - 使用 hadoop mapreduce 确定用于重复数据删除的键值对

我想使用HadoopMapreduce实现文件重复数据删除。我计划通过计算映射器函数中输入目录中存在的所有文件的MD5总和来实现。这些MD5散列将成为reducer的关键，因此具有相同散列的文件将进入同一个reducer。Hadoop中的mapper默认是key是行号，value是文件的内容。我还读到如果文件很大，那么它会被分成64MB的block，这是Hadoop中的最大块大小。如何将键值设置为文件名，以便在我的映射器中计算文件的哈希值？还有如何保证不会有两个节点计算同一个文件的哈希值？最佳答案如果您需要将整个文件作为一个映射

hadoop - 使用 Tez 的 MapReduce

我正在创建一个验证工具来检查ApacheTez是否在Hadoop的hortonworks发行版中工作，为此我需要检查一个简单的mapreduce程序是否正在Tez上执行，我可以看到mapred-default.xml中的一个属性必须更改。mapreduce.framework.name=yarn-tez(ref:http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.0.2/bk_installing_manually_book/content/rpm-chap-tez-2.html)我不想更改集群的任何设置，那么有什么方法可以在不触

hadoop - Hive 阶段 mapreduce

我是Hive的新手。我几乎没有怀疑。我想知道Hive如何将查询转换为MapReduce作业？我查看了解释命令，它为我提供了一个阶段计划，并且依赖项。我想知道阶段的细节。这些阶段如何有定义吗？如何控制MapReduce的执行。假设我想改变Reducejoin到mapsidejoin。最佳答案在抽象层面上，当你在hive中执行查询时会发生以下事情解析查询并创建抽象语法树然后将AST转换为MapReduce任务的DAG然后为每个MapReduce任务创建一个Runnable。然后MapReduce任务将被序列化为xml文件(存储在/t

hadoop - 在远程服务器上存储 mapreduce 中间输出

我使用一个由16个节点组成的hadoop(1.2.0版)集群，其中一个具有公共(public)IP(主节点)，另外15个节点通过专用网络连接(从节点)。是否可以使用远程服务器(除了这16个节点之外)来存储映射器的输出？问题是节点在映射阶段磁盘空间不足而且我无法再压缩map输出。我知道mapred-site.xml中的mapred.local.dir用于设置存储tmp文件的目录的逗号分隔列表。理想情况下，我希望在远程服务器上有一个本地目录(默认目录)和一个目录。当本地磁盘满了，然后我想使用远程磁盘。最佳答案我对此不是很确定，但根据

csv - hadoop mapreduce如何从CSV文件中获取数据输入？

我想实现hadoopmapreduce，我使用csv文件作为输入。所以，我想问一下，hadoop有没有提供什么方法可以用来获取csv文件的值，还是我们直接用JavaSplitString函数来实现？谢谢大家...... 最佳答案默认情况下，Hadoop使用文本输入阅读器从输入文件中逐行输入映射器。映射器中的关键是读取的行数。但是请注意CSV文件，因为单个列/字段可以包含换行符。您可能想要寻找像这样的CSV输入阅读器:https://github.com/mvallebr/CSVInputFormat/blob/master/s

java - 使用 Hadoop MapReduce 从 CSV 文件中收集特定数据

我需要一些有关MapReduce程序的帮助。我有一个包含15列的CSV文件。我正在尝试根据第三列的值(年份)从其中两列(市场和资助金额)中提取数据。截至目前，我的程序为每个条目输出两列(市场和资助金额)的数据。我希望它输出的是指定年份每个市场的总融资额或指定年份范围内每个市场的总融资额。我将在下面发布我的映射器代码以及示例数据条目。任何帮助将不胜感激!publicclassFundingMapperextendsMapReduceBaseimplementsMapper{privateTextmarket=newText();privateTextamount=newText();pu

hadoop - HDFS 中的文件大小应该是多少才能获得最佳 MapReduce 作业性能

我想将文本文件从外部源复制到HDFS。让我们假设我可以根据文件的大小合并和拆分文件，文本文件的大小应该是多少才能获得最佳的自定义MapReduce作业性能。大小重要吗？最佳答案 HDFS旨在支持非常大的文件而不是小文件。与HDFS兼容的应用程序是那些处理大型数据集的应用程序。这些应用程序只写入一次数据，但会读取一次或多次，并要求以流式传输速度满足这些读取。HDFS支持文件的一次写入多次读取语义。在HDFS架构中有一个block的概念。HDFS使用的典型block大小为64MB。当我们将一个大文件放入HDFS时，它被分成64MB的b

hadoop - 在 hbase 1.0.1 上运行 mapreduce 的问题

我在ApacheHadoop2.7集群环境中独立运行Hbase1.0.1。我在Hbase上运行简单的MapReduce作业时遇到以下问题。Exceptioninthread"main"java.io.FileNotFoundException:Filedoesnotexist:hdfs://hdmaster:9000/usr/hadoop/share/hadoop/common/lib/zookeeper-3.4.6.jaratorg.apache.hadoop.hdfs.DistributedFileSystem$22.doCall(DistributedFileSystem.jav

hadoop - 计算 1 个 MapReduce 中的多个键

我目前有一个包含以下列的交易列表:TradeID,SellerID,FishType,Price,Qty我想得到每个SellerID的数量每种FishType的数量目前，我已经编写了一个输出FishType、Qty>的映射器，以便对每个的Qty求和鱼种。但是，要获取SellerID的计数，是否必须编写单独的mapreduce任务？或者有没有办法让我在同一个mapreduce任务中这样做？我考虑过使用计数器，但是，在编码时我不知道记录中的sellerID，并且可能有太多无法使用计数器跟踪。在我看来，这也是对计数器功能的滥用。请指教。最佳答案

windows - 运行 MapReduce 作业时出错 : not a valid Inet address

我想尝试在Windows上使用Hadoop。我已将WindowsAzureHDInsightPreview作为单个节点安装在我的Windows7笔记本电脑上。仪表板和节点已启动并正在运行，并且HDFS正在运行。但是，当我运行MapReduce作业时，它失败并显示错误消息“不是有效的Inet地址”:c:\Hadoop\GettingStarted>powershell-ExecutionPolicyunrestricted/FrunSamples.ps1w3csmalljavatotalhitsMovedtotrash:hdfs://localhost:8020/w3c/out12/12