HIVE_草庐IT

mysql - 从 Hive 表中提取 XML 数据并解析数据

我想从配置单元表中提取特定的列值。该列包含XML数据。如何解析XML数据并从该特定XML列中提取名称和值。我还想将提取的数据插入到另一个Hive表中。最佳答案选项1:LanguageManualXPathUDF示例:selectxpath('','/descendant::c/ancestor::b/@id')fromt1limit1;[1","2]选项2:另一种实现方式是Hive-XML-SerDe在这两个选项中，您都需要具备Xpath表达式知识。如果要将提取的数据插入到另一个表中，请使用createtableasselect

hadoop - Hive 中异常的日期时间字符串解析

您好，我正在尝试在配置单元中解析以下字符串"2016-09-30T21:59:58.093Z"我想从中提取年、月、日和小时。我可以使用year()、day()和to_date()函数来提取日期，但我无法从中获取小时数。如果我这样做hour("2016-09-30T21:59:58.093Z")或unix_timestamp("2016-09-30T21:59:58.093Z")它们将返回NULL。有人可以提出建议吗？谢谢最佳答案 hive>selectfrom_unixtime(unix_timestamp("2016-09-30

hadoop Hive section code pre hiveql

hadoop - hive -e 带分隔符

我正在尝试从配置单元表中导出数据，如下所示，但它正在生成以制表符作为分隔符的文件。导出时是否可以指定分隔符为逗号或制表符？hive-e"usedefault;sethive.cli.print.header=true;select*fromtest1;">/temp/test.txt(or.csv)谢谢J 最佳答案您可以通过管道传输数据并使用简单的sed命令将数据转换为所需的输出格式。下面的sed命令用逗号替换制表符。默认输出是Tab。您可以相应地更改输出。hive-e"usedefault;sethive.cli.print.h

hadoop hive section 制表符 hiveql

mysql - Sqoop 导出不支持 --columns 参数

我有一个sqoop作业，我只想将HIVE表中的3列导出到只有这3个字段的mysql表中。export--connect--username--password--tabletarget--columns"col1,col2,col3"--export-dir/path/to/source/table请注意，在hive表中，col1、col2、col3之间有一些字段。抛出的错误是IllegalArgumentException，因为Sqoop正在解析hive表中col1和col2之间的字符串字段，我明确试图忽略它，并试图将其存储为时间戳.如有任何建议，我们将不胜感激!

不支 columns code section col mysql hadoop hive sqoop oozie

java - 如何修复 Hadoop : the Definitive Guide? 中 Hive UDAF 示例的 NoMatchingMethodException

我想计算温度的平均值。然后我创建了一个名为“mean”的UDAF。我按照书中建议的步骤进行操作并得到了NoMatchingMethodException。FAILED:NoMatchingMethodExceptionNomatchingmethodforclasscom.zzy.hadoopbook.hive.Meanwith(double).Possiblechoices:_FUNC_(struct)这是我的HiveQL:DROPTABLEIFEXISTSrecords3;CREATETABLErecords3(yearSTRING,temperatureDOUBLE,qualit

NoMatchingMethodException Definitive partial code section java hadoop hive

sql - Hive SQL Integer YYYYMM 前几个月

我想创建一个查询最近2个月的SQL语句。例如:Select*fromxwheresampledate目前我正在使用这个:(year(from_unixtime(unix_timestamp()))*100+month(from_unixtime(unix_timestamp())))-1但它在一年的前两个月返回错误的语句:(我的想法是用日期计算，然后把它改成yyyymm整数格式。有什么想法吗？最佳答案你能试试这个吗:SELECTcolomnFROMtableWHEREdate>(SELECTadd_months(from_uni

Integer YYYYMM unix_timestamp section from_unixtime sql hadoop hive hiveql

hadoop - 如果列中的值发生变化，则查询以捕获行

我需要捕获那些特定列的值发生变化的特定行，例如“切换”我有以下数据:IDROWToggleDate661112017-03-01661212017-03-02661312017-03-03661412017-03-04661512017-03-05661612017-03-06661712017-03-07661812017-03-08661912017-03-096611012017-03-106611112017-03-116611212017-03-126611312017-03-136611412017-03-146611512017-03-156611612017-03-16

hadoop 如果 2017 661 03 hive

sql - 使用时间轴列作为 Hive 分区字段时出现异常

我正在尝试将数据从普通表加载到Hive分区表。这是我的普通表格语法:createtablex(namestring,date1string);这是我的新分区表语法:createtabley(namestring,date1string)partitionedby(timestamp1string);下面是我是如何加载数据到y的:insertintotableyPARTITION(SUBSTR(date1,0,2))selectname,date1fromx;这是我的异常(exception):FAILED:ParseExceptionline1:39missing)at'('near'

时出 Hive section code pre sql hadoop hive-partitions

hadoop - 如何删除 Hive 中的两个分区列之一？

我创建了一个包含两个分区列的配置单元表，例如col1和col2，现在出于某些分析目的，我希望删除col2分区。基本上我希望从分区列列表中删除列-col2，但我不应该丢失col2中的数据。很明显，最终表应仅由col1分区，而col2也应存在于最终分区表中，但作为普通列而不是分区列。请提出前进的方向。最佳答案下面是最好的方法之一。只需更新配置单元分区:ALTERTABLEPARTITION(year=2018,month=05)SETLOCATION'hdfs://some/temp/location/tale_name/2018/

之一 hadoop section col 配置单 hive hiveql cloudera

hadoop - 在 GCP 上连接 b/w R studio server pro 和 hive

这不是与编程相关的问题，请耐心等待。我目前在GCP上设置了两个实例——一个是RstudioserverPRO，另一个是我的HiveDB集群。我希望使用我的rstudioserverpro访问配置单元中的数据库。两者都在GCP上运行。有人可以指导我吗？(我看过有关rstudio桌面的文章--->hive连接以及从spark集群中运行rstudio-server的文章，但我必须将RstudioserverPRO链接到hivedb，两者都在GCP上运行:O) 最佳答案供将来引用:Rstudio-Dataproc-在这种特殊情况下，我将数

hadoop studio code image pre hive google-cloud-platform google-cloud-dataproc rstudio-server