HIVE2

xml - 在 Hive 上使用 XPATH 获取 XML 节点的名称

我有一个xml文件如下:ToveJaniReminderDon'tforgetmethisweekend!在配置单元上，我能够使用xpath使用以下命令检索XML文档中每个节点的文本:selectxpath(xml_text,'//*[name()='note']//text()')fromtable_test;但是，我无法确定在Hive上使用哪个XPATH命令来检索文本的XML节点名称对于上面的例子，我希望能够返回["to","from","heading","body"]，表示XML文件中标记的XML节点。任何帮助表示赞赏。最佳答案

hadoop - 带时区的 HIVE 日期时间格式

我有一个unix时间戳，它在插入到sqlserver数据库之前使用HIVE中的View进行转换。我遇到的问题是我需要正确的格式才能将其插入到sqlserver中的datetimeoffset(2)字段中。这是hive中的一个例子:Query:selectfrom_unixtime(1413587962,'yyyy.MM.ddhh:mm:ssz');Result:2014.10.1711:19:22UTCSQL服务器无法隐式转换该格式。如果我运行这是SQL服务器:Query:SELECTCONVERT(DATETIMEOFFSET(2),'2014.10.1711:19:22UTC')R

hadoop HIVE section blockquote from_unixtime

sql - Hive 复杂类型来处理一对多关系

如何使用Hive复杂类型处理一对多关系？例如，给定两个表:artist:artist_id,first_name,last_namesong:song_id,song_name,song_date,artist_id如何编写hiveql或sql以将歌曲集合包含到独特的艺术家中，即例如112,drew,jackson,{10:[hill,1992],13:[away,2011],....}113,maria,mcmillan,{25:[denial,2000],26:[fly,1990],....} 最佳答案 selecta.arti

Hive sql artist section artist_id hadoop

hadoop - Sqoop import-all-table to hive 在特定数据库中失败

我正在执行下面的sqoop命令sqoopimport-all-tables-m1\--connect"jdbc:mysql://nn01.itversity.com:3306/retail_db"\--username=retail_dba\--password=itversity\--hive-import\--hive-home/apps/hive/warehouse\--hive-overwrite\--hive-databasegrv_sqoop_import\--create-hive-table\--compress\--compression-codecorg.apach

import-all-table hadoop section code hive sqoop

json - 将 Json 转换为 HIVE 中的单独列

我在Hive数据库表中有4列。前两列是字符串类型，第3和第4列是JSON。类型。如何提取不同列中的json数据。Hive中可用的SERDE似乎只处理json数据。我有普通(STRING)和JSON数据。我如何在此处的单独列中提取数据。例子:abc2341{max:2500e0,value:"20",Type:"1",ProviderType:"ABC"}{Name:"ABC",minA:1200e0,StartDate:1483900200000,EndDate:1483986600000,Flags:["flag4","flag3","flag2","flag1"]}xyz6789{

json 34 jsn jsn2 hadoop hive

hadoop - 使用 Hive on spark 将数据从 gzip 格式转换为 sequenceFile 格式

I'mtryingtoreadalargegzipfileintohivethroughsparkruntimetoconvertintoSequenceFileformat而且，我想高效地做到这一点。据我所知，Spark只支持每个gzip文件一个映射器，就像它对文本文件一样。有没有办法改变正在读取的gzip文件的映射器数量？还是我应该选择另一种格式，如Parquet？我现在卡住了。问题是我的日志文件是类似json的数据，保存为txt格式，然后进行gzip压缩，所以为了阅读，我使用了org.apache.spark.sql.json。我看到的示例显示-将数据转换为SequenceFil

sequenceFile hadoop 射器 section table apache-spark hive pyspark

hadoop - 什么是 Hive 常见用例？

我是Hive的新手；所以，我不确定公司如何使用Hive。让我给您一个场景，看看我对Hive的使用在概念上是否正确。假设我的公司想要保留一些网络服务器日志文件，并且能够始终搜索和分析日志。因此，我创建了一个表列，其中的列对应于日志文件中的列。然后我将日志文件加载到表中。现在，我可以开始查询数据了。因此，随着数据在未来的日期到来，我只是不断地将数据添加到这个表中，因此我总是将我的日志文件作为Hive中的一个表，我可以通过它进行搜索和分析。这种情况是否属于常见用途？如果是，那么我如何继续向表中添加新的日志文件？我是否必须每天手动将它们添加到表中？最佳答案

hadoop Hive section code nosql

variables - 获取当前日期并将其设置为变量，以便将其用作 HIVE 中的表名

我想以YYMMDD的形式获取当前日期，然后将其设置为变量以便将其用作表名。这是我的代码:setdates=date+%Y-%m-%d;CREATEEXTERNALTABLEIFNOTEXISTSdates(idSTRING,regionSTRING,citySTRING)但是这个方法不行，因为好像赋值不对。有什么想法吗？最佳答案 Hive不计算变量，它按原样替换它们，在您的情况下，它将正是这个字符串'date+%Y-%m-%d'。也不可能使用像current_date()这样的UDF来代替DDL中的表名。解决方案是在shell中计

并将用作 code section date variables hadoop hive hiveql

datetime - 创建具有不规则日期/时间格式列的 Hive 表

我必须从csv创建一个Hive表，其中两列有一个日期/时间字段，格式如下:11/28/20188:35:23PM或11/30/20185:02:17AM等例如:responseidprocess_startprocess_endstatus2611/28/20188:35:23PM11/30/20185:02:17AMcomplete我知道我可以先将这些字段创建为字符串，然后再执行如下操作:insertintotablenewtableselectprocess_start,from_unixtime(unix_timestamp(process_start,'dd-MM-yyyyHH

不规则 datetime code section process hadoop hive hiveql simpledateformat

mysql - 如何在 hive 中的 select 语句中编写子查询，其中附加列的单个值是通过某些行的总和获得的

假设有一个表格，其中包含列作为学生表现的详细信息。Student(name,subject,marks,verdict('pass'/'fail')).我需要在此表中添加另一列，即特定学生不及格的科目总分。在MySQL中我可以这样写:select*,select(sum(marks)fromStudentwherename=s.nameandverdict='fail')fromStudents;但它在hive中不起作用。ERROR:UnsupportedSubQueryExpressionInvalidsubquery.SubqueryinSELECTcouldonlybetop-l

何在编写 section Student name mysql hadoop hive

73 74 757677 78 79