草庐IT

df_groups

全部标签

SQL 查询 : How to select multiple instances of a single item without collapsing into a group?

我正在尝试在Impala中执行SQL查询。我有一个数据表,其中(除其他外)有两列,其值相交多次。例如,假设我们有一个表,其中包含两列相关的姓名和电话号码:姓名电话号码约翰·史密斯(123)456-7890罗伯·约翰逊(123)456-7890格雷格·jackson(123)456-7890汤姆格林(123)456-7890jack·马西斯(123)456-7890约翰·史密斯(234)567-8901罗伯·约翰逊(234)567-8901乔·沃尔夫(234)567-8901迈克·托马斯(234)567-8901吉姆·摩尔(234)567-8901约翰·史密斯(345)678-9012罗

hadoop - 如何执行 Group by 然后在 pig 的其他列上使用 DISTINCT

我刚刚开始学习PIG,需要一些帮助解决以下问题。提前致谢!例如:我有这样的输入:职业类别名称ActressActingMarionCotillardActorActingLiamNelsonTennisPlyrAthleticsRogerFedererFootballPlyrAthleticsNeymarActorActingTomHanksActressActingElizabethBanksUSSenatorPoliticsElizabethWarrenFootballPlyrAthleticsMesutOzil我想知道单个类别中有多少种类型。例如:-表演有两种类型,一种是女Act

hadoop - 统计 GROUP BY 中 PIG 查询和 MySql 查询结果的差异

我的PIG查询如下所示emp=LOAD'hdfs://master:9000/hrms/DimEmployee'AS(EmployeeID,OrganizationID,EmploymentType);grouped=groupempby(OrganizationID,EmploymentType);AggEmploymentType=FOREACHgroupedGENERATEgroup.OrganizationID,group.EmploymentType,COUNT(emp.EmployeeID)ascnt;DUMPAggEmploymentType;下面给出了上述pig查询的逐

hadoop - pig : Slow Group By operator

在对Hive和Pig进行基准测试后,我发现Pig中的GroupBy运算符比Hive的要慢得多。我想知道是否有人有过同样的经历?人们是否有任何改进此操作性能的技巧?(按照此处早期帖子的建议添加DISTINCT没有帮助。我目前正在重新运行启用LZO压缩的基准测试)。 最佳答案 看来你看错了方向。GroupBy只是以某种方式对数据进行分组,之后的操作非常重要。在Pig中尝试分析性能时,您应该牢记以下几点:1)几条语句可以合并成一个MR作业,所以不要看语句,看生成的MR作业的性能。2)性能上的巨大差异应该是有原因的。这可能是:2.1不同的输

java - 如何在 Hive 嵌入式模式下运行包含 "select count(*)"和 "group by"子句的 Hive Sql 查询?

如何在Hive嵌入式模式下运行此查询(1)selectproduct,count(*)ascntfromhive_bigpetstore_etlgroupbyproduct在Maven控制台中,我得到一个InvocationTargetException异常在我找到的Hive日志文件中java.lang.Exception:java.lang.NullPointerExceptionatorg.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:354)Causedby:java.lang.NullPointe

hadoop - Hive QL 中的条件 GROUP BY 子句

我正在尝试在HiveQL脚本中参数化GROUPBY子句。SELECTCOUNT(*)ASsales,country,state,cityFROMtestdb.dataWHEREPRICE>5GROUPBYIF(TRUE,(country,state,city),(country,state))如何实现这样的查询? 最佳答案 我曾尝试在GROUPBY及其作品中使用CASE语句。不过,您可能想要验证查询结果。如果您可以将您的条件转换为case语句,则此查询可以工作。SELECT*FROMtestdb.dataWHEREprice>5GR

hadoop - 从非 hdfs 源读取时 namenode.LeaseExpiredException 而 df.write.parquet

我有一个在yarn集群上运行并使用databricks库将csv转换为parquet的spark代码。当csv源是hdfs时它工作正常。但是当csv源不是hdfs时(通常是这种情况),我遇到了这个异常。它不应该发生,因为相同的代码适用于hdfscsv源。问题的完整链接:https://issues.apache.org/jira/browse/SPARK-19344 最佳答案 如评论中所述。当文件位于驱动程序节点上,但节点无法访问时,读取将失败。当使用读取输入文件时(例如spark2.0中的spark.read),所有执行程序节点都

scala - 从spark中的json模式动态生成df.select语句

我正在从宽字符串中选择列,其偏移量如下所示df2=df.select(substring(col("a"),4,6).as("c")).cast(IntegerType)但是我必须从字符串中提取1000列,如果我可以提供诸如列名、数据类型、宽度、起始位置和结束位置等详细信息,那么如何使用jsonsparkstruct模式生成select语句。另外,我不得不将一些列转换为intergertype或longtype,但是我观察到这些字段被像111111111将在转换为integertype时转换为1 最佳答案 如果可以使用configf

python - 如何使用 Group_Map 使用 Python 3 修复 Spark.SQL 中的 "Cannot use null as map key!"错误

我正在使用Spark.SQL并尝试使用MAP语句创建一个数据透视表,以便将一列的值作为不同的列。我用这个查询准备了第一个表:spark.sql("""CREATETABLETABLE_01STOREDASPARQUETASselectROWS,COLUMNS,count(*)asNUM_ROWSfromTABLE_00groupbyROWS,COLUMNSorderbyROWS,COLUMNS""")想法是将其转换为:ROWSCOLUMNSNUM_ROWSVALUE1COL22VALUE1COL350VALUE2COL120VALUE2COL21VALUE2COL330进入这个:COL

hadoop - pig 脚本 : Find sum of items in a group

这是我要运行的行counts=FOREACHz{sum=SUM(B::counter);GENERATEgroupasA::month,sum;};但是我收到以下错误:Invalidfieldprojection.Projectedfield[B::counter]doesnotexistinschema:group:chararray,y:bag{:tuple(A::id:chararray,A::month:chararray,B::counter:int)}.如何对这样一个包含基于一列分组的元组包的模式进行求和聚合? 最佳答案