草庐IT

hive-udf

全部标签

regex - 具有多行记录的文本文件的 Hive 外部表定义

我需要将此文件解析为一个配置单元表,该表是来自亚马逊的电影评论数据集。我在构建正则表达式以解析.txt文件并创建具有正确列类型的表时遇到问题。.txtproduct/productId:B0001G6PZCreview/userId:A3F3THLLZXURQNreview/profileName:A.Yreview/helpfulness:3/3review/score:4.0review/time:1199664000review/summary:Goodstory,Goodaction.GoodDrama.GoodMoviereview/text:WhenIfirstheardo

hadoop - 在 Crontab 上安排 Hive 查询

任何人都可以帮助我在Crontab中安排一项工作,该工作将在特定时间执行一个简单的Hive查询并以文本/日志文件的形式提供给我输出。我创建了一个批处理脚本来执行选择查询,但在Crontab中执行时出现错误(“未找到Hive命令”)。但是,相同的脚本通过shell运行良好。下面是我的脚本:ip.sh#!/bin/bashecho"StartingofJob"cd/home/hadoop/work/hive/binhive-e'select*frommytest.empl'echo"Scriptendshere"定时任务表:10****/home/hadoop/work/ip.sh>>/h

sql - 如何使用标准查询或使用 UDF 标记一行并将其特定值存储在 Hive 中?

我需要在Hive中编写查询或定义需要执行以下操作的函数:数据集:Student||Time||ComuputerPool-------------------------------------A||9:15AM||Pool1.Machine2-------------------------------------A||9:45AM||Pool1.Machine7-------------------------------------A||10:15AM||Pool1.Machine9-------------------------------------A||11:00AM||

json - 如何使用 Json serde 解析 Hive 表的 Json 列?

我正在尝试根据事件名称将反序列化的json事件加载到不同的表中。现在我将所有事件都放在同一个表中,该表只有两列EventName和Payload(有效负载存储事件的json表示形式):CREATETABLEevent(EventNameSTRING,PayloadSTRING)所以基本上我想要的是加载下表中的数据:CREATETABLETempEvent(Column1STRING,Column2STRING,Column3STRING)ROWFORMATSERDE'org.openx.data.jsonserde.JsonSerDe'STOREDASTEXTFILE;然后用类似的东西

hadoop - 如何在配置单元中进行数据库备份?我的意思是 Hive 数据库备份

请任何人建议我如何进行配置单元数据库备份。我们正在使用mapr。问候苏尼尔库马尔 最佳答案 目前,我已经使用Import/Exporthive提供的实用程序对HiveDB进行了备份。它将备份元数据(hive结构信息)和实际数据。EXPORTTABLEtablename[PARTITION(part_column="value"[,...])]TO'export_target_path'[FORreplication('eventid')]IMPORT[[EXTERNAL]TABLEnew_or_original_tablename[

hadoop - 带有子查询的查询的 Hive JOIN 需要永远

最近我一直在玩Hive。大多数事情都进展顺利,但是,当我尝试转换类似2015-04-01device1trafficotherstart2015-04-01device1trafficviolationdeny2015-04-01device1trafficviolationdeny2015-04-02device1trafficotherstart2015-04-03device1trafficotherstart2015-04-03device1trafficotherstart进入2015-04-01122015-04-0212015-04-032我尝试使用以下查询,但出于某种原

hadoop - 使用Oozie在hbase上创建hive表导致libthrift出错?

我在cloudera(cdh4)上使用ooziehive操作来创建hbasehive表。在我的本地开发工具箱上运行createtable命令没有错误。当我通过集群中的oozie配置单元操作执行相同的命令时,出现此错误:FailingOozieLauncher,Mainclass[org.apache.oozie.action.hadoop.HiveMain],main()threwexception,org.apache.thrift.EncodingUtils.setBit(BIZ)Bjava.lang.NoSuchMethodError:org.apache.thrift.Enco

hadoop - 在 hive 表下看不到 HDFS 文件中的数据

我必须从oracle表中的数据创建一个配置单元表。我正在做一个sqoop,从而将oracle数据转换为HDFS文件。然后我在HDFS文件上创建一个配置单元表。sqoop成功完成,文件也在HDFS目标目录中生成。然后我在配置单元中运行创建表脚本。表被创建。但它是一个空表,hive表中没有看到任何数据。有人遇到过类似的问题吗? 最佳答案 Hive默认分隔符是ctrlA,如果你没有指定任何分隔符,它将采用默认分隔符。在您的配置单元脚本中添加以下行。以'\t'结尾的行格式分隔字段 关于hadoo

hadoop - DSE 4.7 中奇怪的 dse hive 集成

我正在尝试对现有的C*表运行Hive查询。这是我的C*表定义:droptableIFEXISTSmydata.site_users;CREATETABLEIFNOTEXISTSappdata.site_users(user_idtext,user_test_uuiduuid,--fortestingpurposes,ifwecanuseitinqueries,therecouldbesomeserdeproblems?user_nametext,PRIMARYKEY(user_id));这是我的外部配置单元表定义:CREATEEXTERNALTABLEc_site_users(user

hadoop - 将数据加载到 HIVE 中的问题

我们在AWS中启动了两个EMR,并在一个EMR中安装了hadoop和hive-0.11.0,在另一个EMR中安装了hive-0.13.1。一切似乎都工作正常,但在尝试将数据加载到TABLE时,它给出了以下错误,并且它发生在两个Hive服务器中。错误信息:AnerroroccurredwhenexecutingtheSQLcommand:loaddatainpath's3://buckername/export/employee_1/'intotableemployee_2Queryreturnednon-zerocode:10028,cause:FAILED:SemanticExcep