草庐IT

分组会

全部标签

将功能沿分组变量的方向应用于pandas和groupby

我有一个n人群,我计算了一些数量的相关矩阵(q1_score,...q5_score)df.groupby('participant_id').corr()Out[130]:q1_scoreq2_scoreq3_scoreq4_scoreq5_scoreparticipant_id11.0q1_score1.000000-0.748887-0.546893-0.213635-0.231169q2_score-0.7488871.0000000.6396490.3249760.335596q3_score-0.5468930.6396491.0000000.1545390.151233q4_sc

SQL 按 map-reduce 中的等价物分组

我运行的大多数查询都采用这种格式:SELECTCOUNT(*),A.a1FROMAWHEREA.a2='x'GROUPBYA.a1A表是一个包含csv文件的hdfs文件夹。因为hive慢得离谱,我如何在map-reduce中实现这个查询?谢谢 最佳答案 您的SQL查询可以映射到MapReduce的HelloWorld等效项:WordCount。我怀疑自定义实现是否可以比Hive(编译为MapReduce)快得多,但这是如何做到的:TextInputFormat->(pos,line)(pos,line)->Mapper:解析/标记行

hadoop - 如何在不同列中使用 COLLECT_SET 和按条件分组

我有这张表:╔═════════╦═════════╦══════════════╗║user_id║item_id║date_visited║╠═════════╬═════════╬══════════════╣║1║123║18/5/2017║║1║234║11/3/2017║║2║345║18/5/2017║║2║456║11/3/2017║╚═════════╩═════════╩══════════════╝我试图(通过Hive查询)实现的是这个结果(假设今天是18/5/2017):╔═════════╦═══════════════════════════╦═══════

hadoop - 在 Pig 中过滤分组值

我有一个正在分组的关系。我怎样才能像map一样访问分组值?data=load'log.txt'as(id:chararray,name:chararray);grouped=groupdatabyid;foreachdata{filtered=filtergroupbygroup.id=data.id;};我尝试迭代组并过滤结果包的一种方法。但我的情况是我必须迭代一个外部元组,然后必须从这些结果中从分组值中获取相应的包。我尝试了嵌套的foreach,但出现以下异常,expressionisnotaprojectexpression:(Name:ScalarExpression)Type

java - 在 Hadoop map-reduce 中对连接的数据进行分组

我有两种不同类型的文件,一种是用户列表。它具有以下结构:用户ID、姓名、国家/地区ID第二种是订单列表:OrderID,UserID,OrderSum每个用户都有很多订单。我需要编写map-reducehadoop作业(在java中)并接收具有以下结构的输出:CountryID,NumOfUsers,MinOrder,MaxOrder编写两个不同的映射器(针对每种文件类型)和一个缩减器以便通过UserID连接来自两个文件的数据并接收以下结构对我来说不是问题:UserID,CountryID,UsersMinOrder,UsersMaxOrder但我不明白如何按CountryID对数据进

hadoop - Hive - 按问题分组

我在Hive中基于2个字段(A和B)进行分组。但它并没有为A和B的每个组合显示一个聚合值。它显示多个值,如AB1一个B4等等是不是因为reducer的数量多于1个,如何避免这个问题? 最佳答案 最近我遇到了类似的问题,在我的HQL中,我使用insertoverwritedirectory'$HQL_OUT_PATH'来覆盖输出。但它似乎不稳定导致重复项。你可能清理HQL之前的输出路径,看输出结果是否正确。 关于hadoop-Hive-按问题分组,我们在StackOverflow上找到一个

hadoop - Hive 查询以根据多个可选键分配分组键

我们有一个包含三个不同ID的Hive表,所有ID都是可选的。在每一行中,必须至少提供三个ID中的一个。如果提供了多个ID,这将在多个ID之间建立等价关系。我们需要根据在任何行中建立的等价关系,为每一行分配一个唯一的主ID。例如:Lineid1id2id3masterID--------------------------------------(1)A1M1(2)A2M1(3)A3M1(4)A1A2M1(5)A2A3M1(6)B1A2M1(7)C1C3M2因为在第4行,A1和A2都存在,我们知道这些ID是等价的。同样,在第5行,A2和A3都存在,我们知道这些ID也是等价的。同样在第6行

mysql - 分组并选择最大对 SQL

我有一个包含两列的表格。createtabletxns(personvarchar(255),fruitvarchar(255));这是一个日志表。我有sqlfiddlehere.这是我能够通过sql查询获得的信息。本质上,对于每个人来说,这是他吃过最频繁的水果。我家里有Oracle和MySql。将来,它也会部署在hadoop上(通过Hive/Impala等)。因此,非以数据库为中心的答案将是最好的。但如果只有这样的话,请也提供一个以数据库为中心的答案。 最佳答案 以下查询将在Oracle和MySQL中运行。selectk.pers

hadoop - Apache PIG - 分组依据

我希望在Pig中实现以下功能。我有一组这样的示例记录。请注意,EffectiveDate列有时为空,并且对于同一CustomerID也不同。现在,作为输出,我希望每个CustomerID有一个记录,其中EffectiveDate是最大值。因此,对于上面的示例,我希望记录突出显示如下所示。我目前使用PIG的方式是这样的:customerdata=LOAD'customerdata'AS(CustomerID:chararray,CustomerName:chararray,Age:int,Gender:chararray,EffectiveDate:chararray);--Groupc

如何通过在SQL查询中分离的分离的半隆分组所有值

请帮助如何按照所附图像中显示的数据实现数据突出显示的行实际上在项目编号字段上进行分组提前致谢看答案以下应该有效:SELECTdistinctItemNumber,SUBSTRING((SELECT';'+TotalItem+'x'+ItemNameFROMYourTablewhereItemNumber=c.ItemNumberORDERBYItemNumberFORXMLPATH('')),2,200000)ASNewDescriptionfromYourTablecGO