草庐IT

hive-overwrite

全部标签

mysql - 返回每个用户具有的不同值的 Hive 查询

我有一个mysql表-UserValueA1A12A3B4B3B1C1C1C8D34D1E1F1G56G1H1H3C3F3E3G3我需要运行一个查询,返回每个用户拥有的第二个不同值。意味着如果每个用户访问任何2个值,则根据出现情况,选择第二个不同的值。Soasabove1&3isbeingaccessedbyeachUser.Occurrenceof1ismorethan3,so2nddistinctwillbe3所以我首先想到我会得到所有不同的用户。createtabletempASSelectdistinctuserfromtable;然后我会有一个外部查询-Selectvalue

hadoop - Hive 不会写入 aws s3

我在hive中有一个外部表存储在我的hadoop集群上,我想将其内容移动到存储在Amazons3上的外部表中。所以我创建了一个s3支持的表,如下所示:CREATEEXTERNALTABLEIFNOTEXISTSexport.export_tableliketable_to_be_exportedROWFORMATSERDE...withSERDEPROPERTIES('fieldDelimiter'='|')STOREDASTEXTFILELOCATION's3a://bucket/folder';然后我运行:INSERTINTOexport.export_tableSELECT*FR

hadoop - 插入 Hive 表时如何从 HDFS 中选择动态文件名

我有一个Hive表。现在我需要编写一个工作流程,每天工作都会在某个位置搜索文件-/data/data_YYYY-mm-dd.csvlike/data/data_2015-07-07.csv/data/data_2015-07-08.csv...因此每天工作流都会自动选择文件名并将数据加载到Hive表(MyTable)中。我正在编写如下加载脚本-在路径中加载数据“/data/${filepath}”覆盖到表MyTable。现在,在运行与普通配置单元作业相同的同时,我可以将文件路径设置为data_2015-07-07.csv,但如何在Oozie协调器中执行此操作,以便它自动选择名称为日期的

mysql - Hive:计算运行 DISTINCT

嗨,有没有一种方法可以计算HIVE中的不同运行计数?我有一个数据框,其中包含日期和时间以及当前正在访问网站的人的ID。我想做的是知道不同的“累积”计数id按日期拆分。我不能按dt、hour、count(distinctid)使用分组,因为如果一个玩家在1和2处处于事件状态,它将被计算两次。有没有办法使用Hive分析和窗口来做到这一点?我试过:selectdate,hour,count(distinctid)over(partitionbydateorderbyhrsrowsbetweenunboundedprecedingandcurrentrow)usersfromdb.table但

regex - Hive - 过滤不同的名称

我因过滤某些电影标题而陷入困境。我的问题是我有很多不同的电影标题,例如:Movies:Visitors:BreakingDawnPart1+2100BreakingDawn1+240BreakingDawn1+230DarkKnighttrilogy3D100DarkKnighttrilogy3D40DarkKnightTrilogyHDF30DarkKnightTrilogy-HDF100DarkKnighttrilogy_(blank)44etc.+10000所以有很多不同的电影标题,它们的名字并不唯一,并且在结尾处也有一些空格。我可以稍微解决这个问题,但是已经有很多标题,它们具有

ubuntu - 启动 Hive 给我一个 SessioniveMetaStoreClietnt 运行时异常

只是按照教程点上的教程安装Hive,我正在运行Ubuntu15.04,Hadoop2.6.0并尝试使用Derby10.11.1.1安装Hive1.2.1执行时的完整错误:hive是Exceptioninthread"main"java.lang.RuntimeException:java.lang.RuntimeException:unabletoinstantiateorg.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClientatorg.apache.hadoop.hive.ql.Session.SessionState.

arrays - 我需要帮助使用 HIVE 查询从 JSON 检索子数组

我有以下JSON。{"_id":"00075602-f58d-49f5-8a82-9b5fb5582443","ActivityCountedCollection":[{"Lesson":"98d66ab9-1ef4-4b61-a05d-857b3e07e0f8","DataSet":1,"DateTime":"2013-06-19T15:54:27.79+00:00","ElapsedSeconds":0.0000},{"Lesson":"Kindergarten-Play&Practice","DataSet":0,"DateTime":"2014-01-01T00:00:00",

mysql - Hive 使用子查询填充表

我正在处理Hadoop数据库,使用Hive作为首选接口(interface)。我希望能够将多个SELECT语句组合成一个查询(有点像UNION,但每个查询填充不同的列)。下面的查询将在一个列中返回我需要的所有结果,但我希望能够使用每个查询来填充单独的列。任何关于如何实现这一点的帮助都将是非常棒的——某种与VALUES等效的Hive可能会做到这一点。干杯。INSERTOVERWRITETABLEtstr_tmpSELECT*FROM(SELECTtime_stampFROMhttpWHEREext_hostname='exotichorse'ANDdt='01/07/2015'ANDex

hadoop - Hive:GROUP By 上的子查询

需要Hive查询的帮助。我写了一个Hive查询:selectto_date(from_unixtime(epoch))asdate,count1,count2,count3fromtable1wherecount3=168这给我的结果如下:datecount1count2count37-15-2015168377-15-2015168157-15-201516843andsimilarlyforotherdates....最后,我需要编写一个查询,返回每个日期的count2和count3的中值。例如:我需要输出为:datecount1count2count37-15-201516835

java - 使用 Spark Dataframe 的 Hive 分区中缺少日期前导零

我正在向SparkDataframe添加一个分区列。新列包含年月日。我的数据框中有一个时间戳列。DataFramedfPartition=df.withColumn("year",df.col("date").substr(0,4));dfPartition=dfPartition.withColumn("month",dfPartition.col("date").substr(6,2));dfPartition=dfPartition.withColumn("day",dfPartition.col("date").substr(9,2));当我输出数据帧时,我可以看到列的正确值,