HIVE2

sorting - sort_array 按不同列排序，Hive

我有两列，一列是产品，一列是购买日期。我可以通过应用sort_array(dates)函数对日期进行排序，但我希望能够在购买日期之前对sort_array(products)进行排序。有没有办法在Hive中做到这一点？表名是ClientIDProductDate100Shampoo2016-01-02101Book2016-02-04100Conditioner2015-12-31101Bookmark2016-07-10100Cream2016-02-12101Book22016-01-03然后，为每个客户获取一行:selectclientID,COLLECT_LIST(Produc

同列 sort_array 34 2016 section sorting hadoop hive

sql - 多列和多行的 Hive/SQL 计数出现次数

我正在寻找一种计算出现次数的智能方法。这是一个例子:UserIDCityIDCountryIDTagID1000001305100001130610000022071000002408100001140610000214051000021206我想做什么:我想按列计算每个用户值的出现次数。最后，我想要一个表格来显示有多少用户具有不同的特征。结果应该看起来像这样-或多或少Different_CityIDDifferent_CountryIDsDifferent_TagIDs132解释:Different_CityIDs:仅UserID100000具有不同的CityIDDifferent_

多行多列 distinct different count sql hadoop hive hiveql

hadoop - HIVE 数据透视和求和

我有一个表，我试图找出如何根据第二列中的值进行数据透视和求和。示例输入:|own|pet|qty||---|---|---||bob|dog|2||bob|dog|3||bob|dog|1||bob|cat|1||jon|dog|1||jon|cat|1||jon|cat|1||jon|cow|4||sam|dog|3||sam|cow|1||sam|cow|2|示例输出:|own|dog|cat|cow||---|---|---|---||bob|6|1|||jon|1|2|4||sam|1||3| 最佳答案使用case和sum

求和 hadoop section code dog hive sum pivot transpose

sql - 获取 Hive 中所有列的 NULL 百分比

我想获取Hive表中NULL值的百分比。有没有一种简单的方法可以做到这一点而不必枚举查询中的所有列名？在这种情况下，大约有50k行和20列。提前致谢!类似于:SELECTcount(each_column)/count(*)FROMTABLE_1WHEREeach_column=NULL; 最佳答案如果您使用代码执行此操作，则需要列出列。这是一种方法:selectavg(casewhencol1isnullthen1.0else0.0end)ascol1_null_p,avg(casewhencol2isnullthen1.0el

Hive NULL section code sql hadoop

sql - 使用描述创建 Hive 表

Hive建表时应该在什么地方添加表描述？Tablename:"Orders"TableDescription:"OrdersfromVendorABC." 最佳答案您应该在命令中使用[COMMENTtable_comment]关键字。例子:CREATETABLEIFNOTEXISTSorders(idString,nameString)COMMENT'OrdersfromVendorABC.'ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'LINESTERMINATEDBY'\n'STOREDAST

Hive sql section strong Orders hadoop

sql - Hive 查询中的临时加入(时间上非常接近的事件)

我需要一个我很难搞清楚的配置单元查询。我有一个看起来像这样的时间序列:timesourceword1word2...etc2012-02-0123:43:16.998824300012B3BFAF02012-02-0123:43:16.999356100022326ABAA2012-02-0123:43:16.999887900022327ABAA我需要一个查询，如果一个源中的记录满足特定条件，除了该记录之外，它还应该及时返回一个或多个记录来自第二个source满足一组不同的条件。到目前为止，我的尝试是这样的:SELECTtimeFROMmessagesCJOINmessagesDon

Hive sql time 0.001 code hadoop

scala - 使用 spark 在 hive 中流式传输数据存储

我正在创建一个应用程序，在其中获取流式数据，这些数据进入kafka，然后在spark上。使用数据，应用一些登录，然后将处理后的数据保存到配置单元中。数据速度非常快。我在1分钟内获得50K条记录。Spark流中有1分钟的窗口，它处理数据并将数据保存在配置单元中。我的问题是生产前瞻性架构可以吗？如果是，我如何将流数据保存到配置单元中。我正在做的是，创建1分钟窗口数据的数据框，并使用将其保存在配置单元中results.write.mode(org.apache.spark.sql.SaveMode.Append).insertInto("stocks")我还没有创建管道。可以吗，还是我必须修

中流 scala section 配置单 spark hadoop apache-spark hive spark-streaming

hadoop - Hive 的隐式连接总是内部连接吗？

joindocumentationforHive鼓励使用隐式连接，即SELECT*FROMtable1t1,table2t2,table3t3WHEREt1.id=t2.idANDt2.id=t3.idANDt1.zipcode='02535';这是否等同于SELECTt1.*,t2.*,t3.*FROMtable1t1INNERJOINtable2t2ONt1.id=t2.idINNERJOINtable3t3ONt2.id=t3.idWHEREt1.zipcode='02535'，或者上面会返回额外的记录吗？最佳答案并不总是

hadoop Hive code strong row join hiveql

hadoop - 如何在 HIVE 中将日期 2017-sep-12 转换为 2017-09-12

我在转换hive中的日期时遇到一个问题。我需要将2017-sep-12转换为2017-09-12。我怎样才能在HIVE中实现这一点最佳答案使用unix_timestamp(stringdate,stringpattern)将给定的日期格式转换为自1970-01-01以来的秒数。然后使用from_unixtime()转换为给定的格式:hive>selectfrom_unixtime(unix_timestamp('2017-sep-12','yyyy-MMM-dd'),'dd-MM-yyyy');OK12-09-2017

2017 何在 section code hadoop hive hiveql

hadoop - Spark中HIVE表的显示

这个问题在这里已经有了答案:fetchmorethan20rowsanddisplayfullvalueofcolumninspark-shell(2个答案)关闭4年前。我正在尝试读取Spark1.6.1中的HIVE表。一切都按要求工作，只有Spark中的表显示是有线的。HIVE表由1亿条奇数记录组成。importosfrompysparkimportSparkContextsc=SparkContext("local","SimpleApp")frompyspark.sqlimportHiveContexthive_context=HiveContext(sc)db=hive_con

hadoop Spark section HIVE notice apache-spark pyspark apache-spark-sql

76 77 787980 81 82