sort_dir

sorting - Hadoop - 按键正确排序并按 reducer 分组

我有一些数据来自reducer，它们是这样的:9,235,722,301,536,304,227,11我想根据第二列的数字对它们进行排序。像这样:2,306,307,115,724,221,539,23当我在本地运行我的程序时，我使用:sort-k2,2n但我不知道如何在Hadoop上做同样的事情。我尝试了几个不起作用的选项，例如:-Dmapreduce.partition.keycomparator.options=-k2,2n而且，我希望所有具有相同key的数据都可以在同一个reducer上运行。所以在这种情况下:2,30和6,30应该由同一个reducer处理。关于我应该放在ha

按键 sorting code section reducer hadoop mapreduce mapper

sorting - 如何对 Reducer 输出中的逗号分隔键进行排序？

我正在使用MapReduce运行RFM分析程序。OutputKeyClass是Text.class，我将以逗号分隔的R(Recency)、F(Frequency)、M(Monetory)作为Reducer的键，其中R=BigInteger、F=Binteger、M=BigDecimal，值也是一个文本代表Customer_ID。我知道Hadoop根据键对输出进行排序，但我的最终结果有点奇怪。我希望输出键首先按R排序，然后是F，然后是M。但由于未知原因，我得到以下输出排序顺序:545,1,7652100000545,23,390159.402343750100001452,13,1325

sorting Reducer TextQuadlet return customer_id hadoop mapreduce key

hadoop - 我可以将 pig.temp.dir 设置为/user/USERNAME/tmp/pig 吗？

Hive可以配置为hive.exec.scratchdir=/user/${user.name}/tmp/hive我可以用Pig做类似的事情吗？我已尝试修改pig.properties文件，但似乎没有任何效果。pig.temp.dir=/user/${user.name}/tmp/pig我可以用别名替换pig命令，但我希望将更改写入配置文件。pig-Dpig.temp.dir=/user/`whoami`/tmp/pig谢谢!更新:我们决定将/tmp/用于生产系统。这是一个问题的原因是因为我们正在运行MapR，它似乎试图将临时目录放入用户目录，并在Hive上成功，但在Pig上却没有。

pig USERNAME section user hadoop configuration permissions apache-pig configuration-files

scala - yarn 上的 Spark 提交没有将 jar 分发到 nm-local-dir

1、版本Spark:2.0.0标度:2.11.8java:1.8.0_91hadoop:2.7.22、问题:当我在yarn上提交scala程序到spark时，它抛出一个异常:Causedby:java.lang.IllegalStateException:Librarydirectory'/opt/hadoop/tmp/nm-local-dir/usercache/hadoop/appcache/application_1471514504287_0021/container_1471514504287_0021_01_000002/assembly/target/scala-2.11

分发 nm-local-dir INFO java 08 scala hadoop apache-spark hadoop-yarn

sorting - 我们真的需要在 MapReduce 框架中进行排序吗？

我是MapReduce的新手，只是无法理解根据每个分区中的键对映射器输出进行排序的需要。最终我们想要的只是一个reducer被提供一个由几对组成的分区。并且每一对中的键不仅对于相应的分区是唯一的，而且对于馈送到不同reducer的所有分区也是唯一的。为此需要做sort在任何阶段。我们不能使用hashtable吗？将对应于同一键的值分组？将其分解为每个阶段。在映射器阶段，对于每个输出对，我们简单地散列键以找到分区号，然后我们将相应的对附加到属于同一分区的所有此类对的链表中。所以最后，单个映射器获得的输出将是hashtable.其中对于每个分区号，我们都有一个链表没有基于键的顺序配对，即没

中进 MapReduce code 射器 section sorting hadoop

hadoop - "dfs.replication"和 "dfs.datanode.data.dir"配置如何在集群中工作？

我已按照Apache“单节点设置”说明在单节点上设置dfs.replication。但是后来我按照“ClusterSetup”进行操作，但它没有提到这个属性，所以我不知道这是要在Namenode上设置的属性，还是也/仅在Datanodes上设置的属性..我还读到在数据节点上的dfs.datanode.data.dir中设置多个(逗号分隔)路径将复制所有路径上的数据。所以我的问题是:dfs.replication将对哪个节点产生影响，如果dfs.datanode.data.dir的多个路径是设置，这些额外的独立复制是否仅针对每个数据节点，或者这些是否也以某种方式与dfs.replicat

中工 amp strong code replication hadoop hdfs

hadoop - Map only 任务中会出现 Shuffle 和 sort 吗？

shuffle和sort阶段是在map任务结束之前进行，还是在map任务生成输出之后进行，以便不再回头查看map任务。这是一个让我感到困惑的“仅限maptask”案例。如果在Maponly任务中没有Shuffle和sort，谁能解释一下数据是如何写入最终输出文件的。最佳答案当你有一个map-only任务时，根本没有混洗，这意味着映射器会将最终输出直接写入HDFS。另一方面，当你有一个完整的Map-Reduce程序时，带有映射器和缩减器，是的，洗牌可以在缩减阶段开始之前开始。引用thisveryniceanswer所以:First

Shuffle hadoop section 射器 map mapreduce

sorting - Hadoop MapReduce Streaming 对多列进行排序

我有这样的mapreduce输入:key1\t4.1\tmore...key1\t10.3\tmore...key2\t6.9\tmore...key2\t3\tmore...我想按第一列排序，然后按第二列排序(反向数字)。有没有办法实现这个StreamingMapReduce？我目前的尝试是这样的:hadoopjarhadoop-streaming-1.2.1.jar-Dnum.key.fields.for.partition=1-Dmapred.text.key.comparator.options='-k1,2rn'-Dmapred.output.key.comparator.c

多列 MapReduce section combiner comparator sorting hadoop

hadoop - yarn.log.dir 在哪里定义的？

在yarn-default.xml对于ApacheHadoop3.0.0，它将yarn.nodemanager.log-dirs的默认值显示为${yarn.log.dir}/userlogs。yarn.log.dir在哪里定义的？它有默认值吗？我没有在任何默认配置(core-default.xml、hdfs-default.xml、mapred-default.xml、yarn-default.xml)中找到它。我没有在任何环境脚本(hadoop-env.sh、httpfs-env.sh、kms-env.sh、mapred-env.sh、yarn-env.sh)中找到它。同样让我感到困

hadoop yarn default section logging hadoop-yarn

sorting - 使用 Hadoop MapRed 排序

嗯，我想知道如何在reduce任务之后更改我的简单WordCount程序的排序顺序？我已经制作了另一个按值而不是键排序的map，但它仍然按升序排序。有没有一种简单的方法可以做到这一点(更改排序顺序)？!谢谢韦洛佐最佳答案如果您使用的是较旧的API(mapred.*)，则在作业conf中设置OutputKeyComparatorClass:jobConf.setOutputKeyComparatorClass(ReverseComparator.class);ReverseComparator可以是这样的:staticclassR

sorting Hadoop section ReverseComparator code mapreduce

80 81 828384 85 86