df_groups

SQL 查询 : How to select multiple instances of a single item without collapsing into a group?

我正在尝试在Impala中执行SQL查询。我有一个数据表，其中(除其他外)有两列，其值相交多次。例如，假设我们有一个表，其中包含两列相关的姓名和电话号码:姓名电话号码约翰·史密斯(123)456-7890罗伯·约翰逊(123)456-7890格雷格·jackson(123)456-7890汤姆格林(123)456-7890jack·马西斯(123)456-7890约翰·史密斯(234)567-8901罗伯·约翰逊(234)567-8901乔·沃尔夫(234)567-8901迈克·托马斯(234)567-8901吉姆·摩尔(234)567-8901约翰·史密斯(345)678-9012罗

collapsing instances 罗伯 phone_number number sql hadoop impala

hadoop - 如何执行 Group by 然后在 pig 的其他列上使用 DISTINCT

我刚刚开始学习PIG，需要一些帮助解决以下问题。提前致谢!例如:我有这样的输入:职业类别名称ActressActingMarionCotillardActorActingLiamNelsonTennisPlyrAthleticsRogerFedererFootballPlyrAthleticsNeymarActorActingTomHanksActressActingElizabethBanksUSSenatorPoliticsElizabethWarrenFootballPlyrAthleticsMesutOzil我想知道单个类别中有多少种类型。例如:-表演有两种类型，一种是女Act

DISTINCT hadoop section grouped Acting apache-pig

hadoop - 统计 GROUP BY 中 PIG 查询和 MySql 查询结果的差异

我的PIG查询如下所示emp=LOAD'hdfs://master:9000/hrms/DimEmployee'AS(EmployeeID,OrganizationID,EmploymentType);grouped=groupempby(OrganizationID,EmploymentType);AggEmploymentType=FOREACHgroupedGENERATEgroup.OrganizationID,group.EmploymentType,COUNT(emp.EmployeeID)ascnt;DUMPAggEmploymentType;下面给出了上述pig查询的逐

hadoop GROUP code strong section apache-pig sqoop

hadoop - pig : Slow Group By operator

在对Hive和Pig进行基准测试后，我发现Pig中的GroupBy运算符比Hive的要慢得多。我想知道是否有人有过同样的经历？人们是否有任何改进此操作性能的技巧？(按照此处早期帖子的建议添加DISTINCT没有帮助。我目前正在重新运行启用LZO压缩的基准测试)。最佳答案看来你看错了方向。GroupBy只是以某种方式对数据进行分组，之后的操作非常重要。在Pig中尝试分析性能时，您应该牢记以下几点:1)几条语句可以合并成一个MR作业，所以不要看语句，看生成的MR作业的性能。2)性能上的巨大差异应该是有原因的。这可能是:2.1不同的输

operator hadoop section Combiner Hive apache-pig

java - 如何在 Hive 嵌入式模式下运行包含 "select count(*)"和 "group by"子句的 Hive Sql 查询？

如何在Hive嵌入式模式下运行此查询(1)selectproduct,count(*)ascntfromhive_bigpetstore_etlgroupbyproduct在Maven控制台中，我得到一个InvocationTargetException异常在我找到的Hive日志文件中java.lang.Exception:java.lang.NullPointerExceptionatorg.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:354)Causedby:java.lang.NullPointe

amp Hive java code hadoop sql

hadoop - Hive QL 中的条件 GROUP BY 子句

我正在尝试在HiveQL脚本中参数化GROUPBY子句。SELECTCOUNT(*)ASsales,country,state,cityFROMtestdb.dataWHEREPRICE>5GROUPBYIF(TRUE,(country,state,city),(country,state))如何实现这样的查询？最佳答案我曾尝试在GROUPBY及其作品中使用CASE语句。不过，您可能想要验证查询结果。如果您可以将您的条件转换为case语句，则此查询可以工作。SELECT*FROMtestdb.dataWHEREprice>5GR

hadoop GROUP section country mapreduce hive cloudera hiveql

hadoop - 从非 hdfs 源读取时 namenode.LeaseExpiredException 而 df.write.parquet

我有一个在yarn集群上运行并使用databricks库将csv转换为parquet的spark代码。当csv源是hdfs时它工作正常。但是当csv源不是hdfs时(通常是这种情况)，我遇到了这个异常。它不应该发生，因为相同的代码适用于hdfscsv源。问题的完整链接:https://issues.apache.org/jira/browse/SPARK-19344 最佳答案如评论中所述。当文件位于驱动程序节点上，但节点无法访问时，读取将失败。当使用读取输入文件时(例如spark2.0中的spark.read)，所有执行程序节点都

LeaseExpiredException namenode section noreferrer https hadoop apache-spark apache-spark-sql parquet

scala - 从spark中的json模式动态生成df.select语句

我正在从宽字符串中选择列，其偏移量如下所示df2=df.select(substring(col("a"),4,6).as("c")).cast(IntegerType)但是我必须从字符串中提取1000列，如果我可以提供诸如列名、数据类型、宽度、起始位置和结束位置等详细信息，那么如何使用jsonsparkstruct模式生成select语句。另外，我不得不将一些列转换为intergertype或longtype，但是我观察到这些字段被像111111111将在转换为integertype时转换为1 最佳答案如果可以使用configf

select scala section 列名 apache-spark hadoop bigdata

python - 如何使用 Group_Map 使用 Python 3 修复 Spark.SQL 中的 "Cannot use null as map key!"错误

我正在使用Spark.SQL并尝试使用MAP语句创建一个数据透视表，以便将一列的值作为不同的列。我用这个查询准备了第一个表:spark.sql("""CREATETABLETABLE_01STOREDASPARQUETASselectROWS,COLUMNS,count(*)asNUM_ROWSfromTABLE_00groupbyROWS,COLUMNSorderbyROWS,COLUMNS""")想法是将其转换为:ROWSCOLUMNSNUM_ROWSVALUE1COL22VALUE1COL350VALUE2COL120VALUE2COL21VALUE2COL330进入这个:COL

Group_Map amp code COL section python python-3.x apache-spark hadoop

hadoop - pig 脚本 : Find sum of items in a group

这是我要运行的行counts=FOREACHz{sum=SUM(B::counter);GENERATEgroupasA::month,sum;};但是我收到以下错误:Invalidfieldprojection.Projectedfield[B::counter]doesnotexistinschema:group:chararray,y:bag{:tuple(A::id:chararray,A::month:chararray,B::counter:int)}.如何对这样一个包含基于一列分组的元组包的模式进行求和聚合？最佳答案

hadoop group section chararray counter apache-pig

112 113 114115116 117 118