草庐IT

sort_dir

全部标签

hadoop - Sqoop 中拆分 <column> --target-dir 的目的是什么

当我们在sqoop中编写--split-by时,内部发生了什么?例子:sqoopimport--connectjdbc:mysql://localhost/test--usernameroot--passwordtraining123--query'select*fromtransactionwhere$CONDITIONS'--split-byTxnid--target-dirinput/transaction 最佳答案 HadoopMAPReduce就是分而治之。为了将数据分割成多个独立的切片并行传输,Sqoop需要找到--sp

apache-spark - 亚马逊电子病历 : Spark - SparkException java IOException: Failed to create local dir in/tmp/blockmgr*

我有一个带有Spark的AWSEMR集群。我可以连接到它(spark):通过SSH连接到主节点后从主节点来自另一个AWSEMR集群但无法连接到它:从我的本地机器(macOSMojave)来自非emr机器,如Metabase和Redash我已阅读thisquestion的答案.我已经检查过所有节点上的文件夹权限和磁盘空间都没有问题。我的假设是我面临着类似的问题JamesWierzba在评论中提问。但是,我没有足够的声誉在那里添加评论。此外,考虑到它特定于AWSEMR,这可能是一个不同的问题。SSH连接到主节点后连接工作正常。#SSHedtomasternode$ssh-i~/identi

sorting - MapReduce 排序迭代器

我正在阅读MapRedcue的源代码,以更深入地了解MapReduce的内部机制。当我试图了解如何合并映射阶段产生的数据并将其发送到减少功能以进行进一步处理时,我遇到了问题。源代码看起来太复杂了,我只想知道它的概念。我想知道的是在传递给reduce()函数之前如何对值(作为参数Iterator)进行排序。在MapTask.runOldReducer()中,它将通过传递RawKeyValueIterator创建ReduceValuesIterator,其中将调用Merger.merge()并执行许多操作(例如收集段)。阅读代码后,在我看来它只尝试按键排序,并且与该键相关的值将被聚合/收集

hadoop - 能否自定义 Hadoop 的 Shuffle/Sort(或分区)阶段来执行图形遍历?

我还在学习MapReduce框架,具体由Hadoop实现,我想知道是否可以修改它来执行以下任务:Map()函数将发出(key,value)对,其键是大小为2的数组,比如int[2]。我希望将包含两个共同整数中的任何一个的每一对映射到同一个reducer。例如,如果Map()发出:([2,3],4),([2,4],5),([6,5],2),([5,7],1),那么Reduce1应该接收前两对,Reduce2接收后两对(前两对共享2,后两对共享5)。这可以看作是一个连通分量问题,其中顶点是int[]中的整数,边在同一int[]中的任意两个整数之间共享。 最佳答案

hadoop - 如何从 "sort"中出现频率最高的 30 个词降序排列?

我的映射器(Hadoop1.2.1)创建键值对标记,我从一个简单的文本文件中读取它们。没有火箭科学。reducer最终“捆绑”(在Hadoop中,您是否像在SQL中那样称呼该分组?)相同的键并对值1求和。这是默认的Hadoop教程。但是,当我的reducer可以使用这些值时,我想对它们进行降序排序。仅显示前30个标记(字符串、单词)。我好像有些概念不是很清楚。首先,为每个键值对调用reduce方法,对吗?因此,我看不到一个地方可以缓冲像HashMap这样的东西,它可以保存最高的结果(最频繁的标记)。我在想,如果我有这样一个变量,我可以很容易地比较和插入值在前30名内的每个键。处理这个频

hadoop - 如何选择${mapred.local.dir}?

如果我配置了几个${mapred.local.dir}目录来存储MapTask的即时结果,这些目录挂载在不同的磁盘上。我的问题是:1.LocalDirAllocator.java是否用于管理${mapred.local.dir}目录?2.LocalDirAllocator.java的方法getLocalPathForWrite()是用来选择一个${mapred.local.dir}目录的? 最佳答案 1.WhetherLocalDirAllocator.javaisusedtomanage${mapred.local.dir}dir

hadoop - Mapper Combiner patitioner shuffle/sort 顺序

我在DefiniteGuide:Hadoopinpg206中有以下文字。在写入磁盘之前,线程首先将数据划分为对应的分区到他们最终将被发送到的reducer。在每个分区内,后台线程按键执行内存中排序,如果有组合器功能,它在排序的输出上运行。运行combiner函数可以得到更多紧凑的map输出,因此写入本地磁盘和传输到的数据较少reducer。那么有了这个理解,我可以排序为Mapper,partitioner,shuffle/sort,Combiner的顺序吗? 最佳答案 我写了一篇关于此的好文章:http://0x0fff.com/h

hadoop - default.fs.name 和 hive.metastore.warehouse.dir 不冲突

嗨,当我尝试运行以下命令时LoaddataInpath'/data'intoTableTablename;在hiveshell中抛出以下错误Movefrom:hdfs://hadoopcluster/datato:file:/user/hive/warehouse/Tablenameisnotvalid.Pleasecheckthatvaluesforparams"default.fs.name"and"hive.metastore.warehouse.dir"donotconflict.我的default.fs.name属性在哪里fs.defaultFShdfs://hadoopcl

sorting - 为什么 mapreduce 二次排序不在复合键的 compareTo() 上?

要执行二次排序,我们必须创建一个复合键,它扩展了WritableComparable接口(interface)并实现了compareTo()。在“Hadoop:权威指南”一书和几乎所有其他地方的博客中,排序都是基于扩展WritableComparator的单独类(书中的KeyComparator)的compare()方法进行的。compare()和compareTo()具有相同的逻辑。既然WritableComparator的compare()是用来对compositekey进行排序的,那么CompositeKey的compareTo()到底什么时候用到呢?

hadoop - shuffle 和 sort 阶段是 map 还是 reduce 阶段的一部分?

我的理解是,在mapreduce编程模型中我们有map和reduce两个阶段。完成映射阶段后,生成中间值(键、值)并将这些值传递给缩减器。我怀疑在map()阶段之后,shuffle和sort会到来。所以,我觉得shuffle和sort是reducer阶段的一部分,是这样吗?如果是这种情况,combiner()是如何工作的? 最佳答案 其实map/reduce中有3个阶段:map随机排序减少Shuffle&sort是一个纯框架阶段(作为开发人员,您只需编写map和reduce函数),它允许map任务和reduce阶段之间的通信。组合器