草庐IT

version-sort

全部标签

sorting - 在 Hadoop2 中进行基准排序时出错 - 分区不匹配

我正在尝试对Hadoop2MapReduce框架进行基准测试。它不是TeraSort。但是testmapredsort。第一步创建随机数据:hadoopjarhadoop/randomwriter-Dtest.randomwrite.bytes_per_map=100-Dtest.randomwriter.maps_per_host=10/data/unsorted-datastep-2对step-1中创建的随机数据进行排序:hadoopjarhadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jarsort/da

Hadoop Versions 好像分0.x, 1.x, 2.x,但是在讨论YARN/MapReduce的时候,每一页都是指Hadoop 1和Hadoop 2.0

在Apache的发行版页面上,Hadoop似乎存在于0.x、1.x和2.x中。但是,在讨论MapReduce/Yarn,决定Hive和Hbase的版本时,好像只讨论了Hadoop1和2,这是为什么呢?0.x只是测试版吗? 最佳答案 1.X和2.X版本源自0.X系列,该系列仍在继续(据我所知)。版本编号非常困惑。可以在https://blogs.apache.org/bigtop/entry/all_you_wanted_to_know找到有用的图表.即使它已经过时了,您也可以看到相关的分支以及派生自什么。同时检查Hadooprele

sorting - 如何在 Hive 中对文件进行重复数据删除并保持原始排序顺序?

我的数据已经按last_column降序和third_column降序排序。我想在保持原始排序顺序的同时,对基于last_column的数据集进行去重。所以对于每个last_column,我想要最终输出中的第一行。我需要使用Hive来实现这一点。我的数据是:10009,12/3/1959,Rodney,Purtle,M,8/28/1986,d00710010,5/1/1954,Ahishek,Kumar,M,12/1/1986,d00710011,1/21/1955,Abhilash,Whatever,M,9/12/1989,d00710016,5/1/1954,Ross,Hupchu

sorting - Hive 不区分大小写的字母排序

当我在配置单元查询中有一个“orderby”子句时,例如:SELECT*FROMcategoriesORDERBYcategory_name结果将排序为所有大写字母在前,然后是所有小写字母。我需要一些表约束或配置来强制执行以下行为。使用UPPER/LOWER排序的session无济于事。当前结果:AAAKKKZZZaaabbbyyy预期结果:aaaAAAbbbKKKyyyZZZ是否有任何配置强制配置单元首先对数据进行字母排序?在sql中,它是一个排序规则。在Oracle中,它是LTS。这种预期排序结果的正确配置是什么,在哪里设置? 最佳答案

maven - 在 Maven 中, `package:artifact:jar:version` 和包 :artifact:jar:tests:version`? 有什么区别

使用Maven3.0.5我正在尝试从com.holdenkarau获取spark-testing-base以使用Hadoop3.1。霍登卡劳的dependencytree包括Hadoop2.8.3;这就是为什么我认为我收到错误。从我的mvndependency:tree我看到以下几行:[INFO]+-org.apache.hadoop:hadoop-common:jar:3.1.0:provided...[INFO]|+-org.apache.hadoop:hadoop-common:jar:tests:2.8.3:test这些行来自pom.xml文件中的这两行:org.apache.

sorting - hadoop streaming 是否在 map 和 reduce 阶段之间使用稳定的排序?

这对多阶段作业有影响。例如,如果我们在作业的第1阶段按键“a”排序,在作业的第2阶段按键“b”排序(将第1阶段的输出作为标准输入),我们是否可以假设当两个阶段完成时记录是按键“b”排序,然后按键“a”排序?出于这个问题的目的,假设映射器和缩减器不排列记录顺序。还假设reduce任务的数量为1个或更多。请记住,答案可能会因阶段1的reduce任务数量而异。例如,如果阶段1的reduce任务数量大于1,则keya将被拆分到多个文件中(尽管在相对于每个文件的排序顺序)。然而,当只有一个reduce任务时,所有值都将出现在同一个文件中,这可能是稳定性的必要条件,具体取决于实现。如果答案是肯定的

configuration - Hadoop 配置 - 映射器/组合器是否受 io.sort.factor 和 io.sort.mb 影响?

如果我修改io.sort.factor和io.sort.mb,在map端发生的本地排序是否使用这些变量,或者它们是否仅由在reducer端完成的排序使用? 最佳答案 是的,它们也用在map端(不管你有没有组合器):MapTask.javaio.sort.factor-第1695行io.sort.mb-第932-944行 关于configuration-Hadoop配置-映射器/组合器是否受io.sort.factor和io.sort.mb影响?,我们在StackOverflow上找到一个

hadoop - 配置单元设置 hive.optimize.sort.dynamic.partition

我正在尝试插入具有动态分区的配置单元表。同一查询在过去几天一直运行良好,但现在出现以下错误。DiagnosticMessagesforthisTask:java.lang.RuntimeException:org.apache.hadoop.hive.ql.metadata.HiveException:HiveRuntimeError:Unabletodeserializereduceinputkeyfromx1x128x0x0x46x234x240x192x148x1x68x69x86x50x0x1x128x0x104x118x1x128x0x0x46x234x240x192x148

hadoop - 如何修复 java.lang.IllegalArgumentException : Unrecognized Hadoop major version number: 3. 1.0?

我在查询中得到一个java.lang.IllegalArgumentException:UnrecognizedHadoopmajorversionnumber:3.1.0exception。这是查询:WITHt1as(select*frombrowserdatajoincitydataoncityid=id),t2as(selectuap.deviceasdevice,uap.osasos,uap.browserasbrowser,nameascitynamefromt1lateralviewParseUserAgentUDTF(UserAgent)uapasdevice,os,br

sorting - 在具有零化简节点的 Mapreduce 中实现简单排序程序时出错

我尝试在mapreduce中实现一个排序程序,以便在map阶段之后我只有排序后的输出,其中排序由hadoop框架在内部完成。为此,我尝试将reducetask的数量设置为零,因为不需要任何减少。现在,当我尝试执行该程序时,我一直在获取校验和错误..我不知道接下来要做什么。当然可以在我的上网本上运行该程序,因为当我将reduce任务设置为一个时,排序工作正常。请帮忙!!以下是我为执行排序而编写的完整代码,供您引用:/**Tochangethistemplate,chooseTools|Templates*andopenthetemplateintheeditor.*//****@auth