mapReduce

java - 如何在 Hadoop HDFS 目录中移动文件？

我需要将文件从一个HDFS目录移动到另一个HDFS目录。我想检查是否有一些更简单的方法(一些HDFSAPI)来完成相同的任务，除了InputStream/OutputStream？我听说过FileSystem.rename(srcDir,destDir);但不确定这是否会删除原始src目录。我不想删除原来的目录结构，只是将文件从一个文件夹移动到另一个目录。例如inputDir-/testHDFS/input/*.txtdestDir-/testHDFS/destination移动文件后，目录应如下所示:-inputDir-/testHDFS/inputdestDir-/testHDFS

何在 Hadoop section code testHDFS java mapreduce hdfs

java - Protobuf RPC 在 Hadoop 2.2.0 单节点服务器上不可用？

我正尝试在按照本教程安装的本地单节点集群上运行hadoop2.2.0mapreduce作业:http://codesfusion.blogspot.co.at/2013/10/setup-hadoop-2x-220-on-ubuntu.html?m=1虽然在服务器端抛出以下异常:org.apache.hadoop.ipc.RpcNoSuchProtocolException:Unknownprotocol:org.apache.hadoop.yarn.api.ApplicationClientProtocolPBatorg.apache.hadoop.ipc.ProtobufRpcEn

Protobuf Hadoop apache Server java mapreduce protocol-buffers rpc

Hadoop reducer 数量配置选项优先级

设置reduce数量的以下3个选项的优先级是什么？换句话说，如果三个都设置了，会考虑哪一个？选项1:setNumReduceTasks(2)withintheapplicationcode选项2:-Dmapreduce.job.reduces=2ascommandlineargument选项3:through$HADOOP_CONF_DIR/mapred-site.xmlfilemapreduce.job.reduces2 最佳答案根据Hadoop-权威指南The-Doptionisusedtosettheconfiguratio

reducer Hadoop section strong code configuration mapreduce reduce hadoop-yarn

sorting - 在 MapReduce 中使用分区器进行二次排序有什么意义？

如果您需要在传递给reduce阶段时对给定键的值进行排序，例如移动平均线，或者模仿SQL中的LAG/LEAD分析函数，您需要在MapReduce中实现二次排序.在Google上搜索之后，常见的建议是:A)在映射阶段发出复合键，其中包括,B)创建一个“复合键比较器”类，其目的是为了二次排序，比较键后比较要排序的值，从而使传递给reducer的Iterable被排序。C)创建一个“自然键分组比较器”类，其目的是用于主要排序，仅比较要排序的键，以便传递给缩减器的Iterable包含属于给定键的所有值。D)创建一个“自然键分区器类”，我不知道它的目的，也是我的问题的目的。来自here:Then

MapReduce sorting section strong the hadoop

java - Hadoop GenericOptionsParser

我正在运行经典的hadoop字数统计程序，无法真正弄清楚GenericOptionsParser在以下情况下如何工作。String[]otherArgs=newGenericOptionsParser(conf,args).getRemainingArgs();运行字数统计程序的命令:hadoopjar/home/hduser/WordCount/wordcount.jarWordCountinputoutput从上面的命令中，GenericOptionsParser将input作为otherArgs[0]并将output作为其他参数[1]。为什么它不选择WordCount作为参数？它

GenericOptionsParser Hadoop code java mapreduce

hadoop - 使用 Hadoop 流处理 gzip 文件

我看到很多关于将hadoopMapReduce结果输出为gzip格式或任何其他压缩格式的帖子。但是，我对hadoop-streaming如何读入(输入)压缩格式并没有太多了解。我看到一些关于使用-jobconfstream.recordreader.compression=gziphttp://mail-archives.apache.org/mod_mbox/hadoop-common-user/200907.mbox/%3C73e5a5310907141349k3329c5cua4bb58fcf103522@mail.gmail.com%3E的旧帖子做输入部分。目前，我在Ubunt

hadoop section code mapreduce compression hadoop-streaming

hadoop - 如何为配置单元查询编写 mapreduce 代码

如何编写mapreduce代码从表中选择*用于左外连接因为hiveql需要很长时间。对于1GB的数据，它需要将近10分钟。combiner和shuffle在内部是如何工作的？最佳答案 1)您应该开始使用EXPLAIN或EXPLAINEXTENDED命令，它显示了Hive如何将查询转换为Mapreduce作业。Hive主要为像这样的操作启动MapReduce作业数据过滤、数据聚合(最小值、最大值、平均值)、表的连接/产品和交集、排序等。您首先学习如何在MapReduce中实现上述算法/模式。2)我会推荐你阅读这本书JoinAlg

配置单何为 section 长时 stackoverflow hadoop mapreduce hive

hadoop - RDBMS 与 MAP REDUCE

我正在阅读Hadoop-权威指南，我遇到了这些行:NormalizationposesproblemsforMapReduce,sinceitmakesreadingarecordanonlocaloperation,andoneofthecentralassumptionsthatMapReducemakesisthatitispossibletoperform(high-speed)streamingreadsandwrites.谁能用通俗易懂的语言解释一下这些行的实际含义？我知道什么是规范化。它是如何使读取记录成为非本地的手术？非本地操作引用hadoop是什么意思？

hadoop REDUCE 非本 section mapreduce

hadoop - Hadoop 中的 Combiners , Reducers 和 EcoSystemProject

您如何看待本site中提到的问题4的答案？会是吗？答案是对是错问题:4InthestandardwordcountMapReducealgorithm,whymightusingacombinerreducetheoverallJobrunningtime?A.Becausecombinersperformlocalaggregationofwordcounts,therebyallowingthemapperstoprocessinputdatafaster.B.Becausecombinersperformlocalaggregationofwordcounts,therebyre

EcoSystemProject Combiners strong code the hadoop mapreduce reducers

java - 如何格式化 Hadoop 中 Mapreduce 写入的输出

我正在尝试按每个单词反转文件的内容。我的程序运行良好，但我得到的输出是这样的1dwp2seviG3eht4tnerruc5gnikdrow6yrotcerid7ridkm8desU9ot10etaerc我希望输出是这样的dwpseviGehttnerrucgnikdrowyrotceridridkmdesUotetaerc我正在使用的代码importjava.io.IOException;importjava.util.*;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.conf.*;importorg.apache.ha

Mapreduce Hadoop Text class IntWritable java

105 106 107108109 110 111