草庐IT

hive-overwrite

全部标签

hadoop - HDInsight Hive 在 ADD JAR 语句中找不到 SerDe jar

我已经将json-serde-1.1.9.2.jar上传到路径为“/lib/”的blob存储并添加了ADDJAR/lib/json-serde-1.1.9.2.jar但是我得到了/lib/json-serde-1.1.9.2.jardoesnotexist我在没有路径的情况下进行了尝试,并且还向ADDJAR语句提供了完整的url,结果相同。非常感谢对此的一些帮助,谢谢! 最佳答案 如果您不包含该方案,那么Hive将在本地文件系统上查找(您可以查看thesource的第768行附近的代码)当您包含URI时,请确保使用完整形式:ADDJ

hadoop - Hive - 比较表之间的数据

我需要比较具有相同列的2个外部表(A和A')之间的数据,我实际上制作了一些sql脚本来执行此操作,但不够高效和健壮。有没有办法用UDAF或外部工具来做到这一点?这里有一个示例:表A+----+----+----+|C1|C2|C3|+----+----+----+|01|A|02||02|B|03||03|C|04|+----+----+----+表A'+----+----+----+|C1|C2|C3|+----+----+----+|01|B|02||02|B|03||04|D|04|+----+----+----+输出+------+------+------+------+--

java - Hive GenericUDF 错误 - RuntimeException typeInfo 不能为 null

在AmazonEMR、Hive0.11上运行,我正在尝试使用GenericUDF类创建一个简单的UDF。我想用UDF做的是简单地从列中获取一个值,然后将它打印回屏幕。重点是看看我是否可以在构建更复杂的东西之前让这个工作。我编译jar,加载到配置单元中,并创建一个临时函数。addjar..../GenericTest.jar;createtemporaryfunctiongen_testas'GenericTest';当我使用错误数量的参数运行该函数时,我得到了预期的错误:SemanticException[Error10015]:Line1:13Argumentslengthmisma

hadoop - Hive 索引无法重建 - DAG 由于顶点故障而失败

我在HDP2.2上使用Hive14,在Hive上建立索引时遇到问题。我可以创建一个索引。createINDEXix_keyONTABLEDbTest.Tbl_test(TEST_KEY)as'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler'WITHDEFERREDREBUILD;之后我将数据加载到表中并建立索引。ALTERINDEXix_keyONDbTest.Tbl_testREBUILD;Hive构建了索引,它运行良好,性能得到提升。现在想重建索引,总是报错:INFO:SessionisalreadyopenI

hadoop - 任何人都可以澄清 HIVE 0.14 上的查询吗

我们在我们的应用程序中使用Hive0.14,当执行引擎在MR中时,我们能够更新ORC表,当我们设置执行引擎有TEZ并执行插入/更新/删除时,它会抛出异常“”异常:org.apache.hadoop.hive.ql.lockmgr.LockException:与Metastore通信时出错杀死DAG...java.io.IOException:org.apache.hadoop.hive.ql.lockmgr.LockException:与Metastore通信时出错在org.apache.hadoop.hive.ql.exec.Heartbeater.heartbeat(Heartbe

hadoop - Hive 查询在 Hive 客户端和 JDBC 中的执行方式不同

我通过Hive客户端、Java程序JDBC和直线执行的以下查询。SELECT*FROMTABLE_ONEASt1JOINTABLE_TWOt2ONt2.p_id=t1.p_idANDt2.p_n_id=t1.p_n_idANDt2.d_id=t1.d_idJOINTABLE_THREEt3ONt3.d_m_id=t1.d_m_idANDt3.d_p_id=t1.d_p_idJOINTABLE_FOURt4ONt4.c_id=t1.c_idJOINTABLE_FIVEt5ONt5.a_n_id=t1.a_n_idJOINTABLE_SIXt6ONt6.d_p_p_s_id=t1.d_p_

regex - 具有多行记录的文本文件的 Hive 外部表定义

我需要将此文件解析为一个配置单元表,该表是来自亚马逊的电影评论数据集。我在构建正则表达式以解析.txt文件并创建具有正确列类型的表时遇到问题。.txtproduct/productId:B0001G6PZCreview/userId:A3F3THLLZXURQNreview/profileName:A.Yreview/helpfulness:3/3review/score:4.0review/time:1199664000review/summary:Goodstory,Goodaction.GoodDrama.GoodMoviereview/text:WhenIfirstheardo

hadoop - 在 Crontab 上安排 Hive 查询

任何人都可以帮助我在Crontab中安排一项工作,该工作将在特定时间执行一个简单的Hive查询并以文本/日志文件的形式提供给我输出。我创建了一个批处理脚本来执行选择查询,但在Crontab中执行时出现错误(“未找到Hive命令”)。但是,相同的脚本通过shell运行良好。下面是我的脚本:ip.sh#!/bin/bashecho"StartingofJob"cd/home/hadoop/work/hive/binhive-e'select*frommytest.empl'echo"Scriptendshere"定时任务表:10****/home/hadoop/work/ip.sh>>/h

sql - 如何使用标准查询或使用 UDF 标记一行并将其特定值存储在 Hive 中?

我需要在Hive中编写查询或定义需要执行以下操作的函数:数据集:Student||Time||ComuputerPool-------------------------------------A||9:15AM||Pool1.Machine2-------------------------------------A||9:45AM||Pool1.Machine7-------------------------------------A||10:15AM||Pool1.Machine9-------------------------------------A||11:00AM||

json - 如何使用 Json serde 解析 Hive 表的 Json 列?

我正在尝试根据事件名称将反序列化的json事件加载到不同的表中。现在我将所有事件都放在同一个表中,该表只有两列EventName和Payload(有效负载存储事件的json表示形式):CREATETABLEevent(EventNameSTRING,PayloadSTRING)所以基本上我想要的是加载下表中的数据:CREATETABLETempEvent(Column1STRING,Column2STRING,Column3STRING)ROWFORMATSERDE'org.openx.data.jsonserde.JsonSerDe'STOREDASTEXTFILE;然后用类似的东西