草庐IT

number_sorted

全部标签

hadoop - pig SUM FOREACH GROUP ClassCastException : java. lang.String 无法转换为 java.lang.Number

我在hadoop中有一组URL和关联的事务时间。我正在尝试编写一个pig脚本来为我提供每个URL的总交易时间。每次尝试对事务时间求和时,我都会收到ClassCastException。我第一次尝试pig所以任何帮助表示赞赏。我不知道我做错了什么。这是一些输出:url和交易时间grunt>DESCRIBEuLogUrlsuLogUrls:{url:chararray,et:int}grunt>DUMPuLogUrls(/index.jsp,344)(/another/Access.jsp,517)(/index.jsp,5)(/another/NoAccess.jsp,4)(/index

sorting - 如何在 Hive 中对文件进行重复数据删除并保持原始排序顺序?

我的数据已经按last_column降序和third_column降序排序。我想在保持原始排序顺序的同时,对基于last_column的数据集进行去重。所以对于每个last_column,我想要最终输出中的第一行。我需要使用Hive来实现这一点。我的数据是:10009,12/3/1959,Rodney,Purtle,M,8/28/1986,d00710010,5/1/1954,Ahishek,Kumar,M,12/1/1986,d00710011,1/21/1955,Abhilash,Whatever,M,9/12/1989,d00710016,5/1/1954,Ross,Hupchu

sorting - Hive 不区分大小写的字母排序

当我在配置单元查询中有一个“orderby”子句时,例如:SELECT*FROMcategoriesORDERBYcategory_name结果将排序为所有大写字母在前,然后是所有小写字母。我需要一些表约束或配置来强制执行以下行为。使用UPPER/LOWER排序的session无济于事。当前结果:AAAKKKZZZaaabbbyyy预期结果:aaaAAAbbbKKKyyyZZZ是否有任何配置强制配置单元首先对数据进行字母排序?在sql中,它是一个排序规则。在Oracle中,它是LTS。这种预期排序结果的正确配置是什么,在哪里设置? 最佳答案

hadoop - 亚马逊弹性 MapReduce : the number of launched map task

在MapReduce作业流程步骤的“系统日志”中,我看到以下内容:JobCountersLaunchedreducetasks=4Launchedmaptasks=39启动的maptask数是否包含失败的任务?我使用NLineInputFormat类作为输入格式来管理maptask的数量。但是,对于完全相同的输入,我偶尔会得到略有不同的数字,或者取决于实例的数量(10、15和20)。谁能告诉我为什么我看到启动的任务数量不同? 最佳答案 这很可能是推测性执行的启动。当Hadoop有可用资源时,它可能会选择同时运行同一任务的两次尝试。启

sorting - hadoop streaming 是否在 map 和 reduce 阶段之间使用稳定的排序?

这对多阶段作业有影响。例如,如果我们在作业的第1阶段按键“a”排序,在作业的第2阶段按键“b”排序(将第1阶段的输出作为标准输入),我们是否可以假设当两个阶段完成时记录是按键“b”排序,然后按键“a”排序?出于这个问题的目的,假设映射器和缩减器不排列记录顺序。还假设reduce任务的数量为1个或更多。请记住,答案可能会因阶段1的reduce任务数量而异。例如,如果阶段1的reduce任务数量大于1,则keya将被拆分到多个文件中(尽管在相对于每个文件的排序顺序)。然而,当只有一个reduce任务时,所有值都将出现在同一个文件中,这可能是稳定性的必要条件,具体取决于实现。如果答案是肯定的

configuration - Hadoop 配置 - 映射器/组合器是否受 io.sort.factor 和 io.sort.mb 影响?

如果我修改io.sort.factor和io.sort.mb,在map端发生的本地排序是否使用这些变量,或者它们是否仅由在reducer端完成的排序使用? 最佳答案 是的,它们也用在map端(不管你有没有组合器):MapTask.javaio.sort.factor-第1695行io.sort.mb-第932-944行 关于configuration-Hadoop配置-映射器/组合器是否受io.sort.factor和io.sort.mb影响?,我们在StackOverflow上找到一个

hadoop - 自定义分区程序 : N number of keys to N different files

我的要求是编写自定义分区程序。例如,我有N个来自映射器的键('jsa'、'msa'、'jbac')。长度不固定。事实上,它可以是任何词。我的要求是以这样一种方式编写自定义分区程序,它将所有相同的key数据收集到同一个文件中。键数不固定。在此先感谢您。谢谢,萨提斯。 最佳答案 因此,您有多个映射器正在输出的键,并且您希望每个键都有不同的缩减器,并且每个键都有一个单独的文件。因此,首先编写Partitioner可能是实现该目标的一种方式。默认情况下,hadoop有自己的内部逻辑,它在键上执行,并根据它调用reducer。因此,如果您想编

hadoop - 配置单元设置 hive.optimize.sort.dynamic.partition

我正在尝试插入具有动态分区的配置单元表。同一查询在过去几天一直运行良好,但现在出现以下错误。DiagnosticMessagesforthisTask:java.lang.RuntimeException:org.apache.hadoop.hive.ql.metadata.HiveException:HiveRuntimeError:Unabletodeserializereduceinputkeyfromx1x128x0x0x46x234x240x192x148x1x68x69x86x50x0x1x128x0x104x118x1x128x0x0x46x234x240x192x148

hadoop - 如何修复 java.lang.IllegalArgumentException : Unrecognized Hadoop major version number: 3. 1.0?

我在查询中得到一个java.lang.IllegalArgumentException:UnrecognizedHadoopmajorversionnumber:3.1.0exception。这是查询:WITHt1as(select*frombrowserdatajoincitydataoncityid=id),t2as(selectuap.deviceasdevice,uap.osasos,uap.browserasbrowser,nameascitynamefromt1lateralviewParseUserAgentUDTF(UserAgent)uapasdevice,os,br

sorting - 在具有零化简节点的 Mapreduce 中实现简单排序程序时出错

我尝试在mapreduce中实现一个排序程序,以便在map阶段之后我只有排序后的输出,其中排序由hadoop框架在内部完成。为此,我尝试将reducetask的数量设置为零,因为不需要任何减少。现在,当我尝试执行该程序时,我一直在获取校验和错误..我不知道接下来要做什么。当然可以在我的上网本上运行该程序,因为当我将reduce任务设置为一个时,排序工作正常。请帮忙!!以下是我为执行排序而编写的完整代码,供您引用:/**Tochangethistemplate,chooseTools|Templates*andopenthetemplateintheeditor.*//****@auth