草庐IT

test_hive

全部标签

json - 为嵌套的 JSON 数据创建 Hive 表

我无法将嵌套的JSON数据加载到Hive表中。有人可以帮我吗?以下是我尝试过的:示例输入:{"DocId":"ABC","User1":{"Id":1234,"Username":"sam1234","Name":"Sam","ShippingAddress":{"Address1":"123MainSt.","Address2":null,"City":"Durham","State":"NC"},"Orders":[{"ItemId":6789,"OrderDate":"11/11/2012"},{"ItemId":4352,"OrderDate":"12/12/2012"}]}}

eclipse 中的 java.lang.ClassNotFoundException : org. apache.hadoop.hive.jdbc.HiveDriver

我还添加了usr/local/share/hadoop/mapreduce/*jars、usr/local/hadoop/common、hive-exec-xxx.jar、hive-metastore-xxx.jar和hive-的所有jars文件jdbc-xxx.jar.Hive终端运行良好。我的代码是:privatestaticStringdriverName="org.apache.hadoop.hive.jdbc.HiveDriver";try{Class.forName(driverName);Connectioncon;con=DriverManager.getConnect

hadoop - Hive 中的 RANK OVER 函数

我试图在Hive中运行此查询以仅返回在adimpression表中出现频率最高的前10个url。selectranked_mytable.url,ranked_mytable.cntfrom(selectiq.url,iq.cnt,rank()over(partitionbyiq.urlorderbyiq.cntdesc)rnkfrom(selecturl,count(*)cntfromstore.adimpressionaiinnerjoinzuppa.adgroupcreativesubscriptionagcsonagcs.id=ai.adgroupcreativesubscri

hadoop - 将列添加到Hive外部表错误

尝试将列添加到配置单元中的外部表,但出现以下错误。这个表目前已经注册了1000个分区,我希望避免重新创建这个表,然后运行msckrepair,这需要很长时间才能完成。此外,该表使用opencsvserde格式。如何添加列hive>ALTERTABLEschema.Table123ADDCOLUMNS(Column1000STRING);FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTask.Unabletoaltertable.java.lang.IllegalArgumentExcepti

database - Hive 的 Bucket Map Join

我有一个Hadoop集群,我使用Hive进行查询,我想连接两个大表,其中一个有小桶,从我读到的内容来看,如果我将两个表都存储在连接键上,那会帮助性能。所以我的设置是:将连接键上的两个表分桶到相同数量的桶中,较小表的桶适合内存,设置hive.optimize.bucketmapjoin=true;运行以下查询:SELECT/*+MAPJOIN(a)*/count(*)FROMaJOINBONa.join_key=b.join_key;问题1:以上设置是否足以触发bucketmapjoin?问题2:我对bucketmapjoin的理解是它启动一个本地任务,为每个bucket创建哈希表,然后

unix - Hive 变量替换在 hive -e 命令中不起作用

我正在尝试使用Hive变量。如果我登录Hive并使用:hive>seta=test_table;hive>describe${hiveconf:a};但是如果从Shell尝试相同的命令,它会给出:ParseError1:1cannotrecognizeinputnear...$>hive-e"seta=test_table;describe${hiveconf:a};"ParseError1:1cannotrecognizeinputnear 最佳答案 ParameterExpansionThe`$'characterintrodu

exception - 将数据加载到 Hive 时出错

我正在尝试使用以下命令将本地计算机上的csv文件中的数据加载到在Hive上创建的测试数据库LOADDATALOCALINPATH'bdata/tx/TX_2012.csv'INTOTABLEtestdbPARTITION(dt='08-09-2012');但是,我不断收到以下错误:Copyingfile:file:/root/business-data/sc_sd_tn_tx_ut/TX_6_17_2012.csvFailedwithexceptionjava.io.IOException:File/tmp/hive-root/hive_2012-08-09_13-21-49_208_

mysql - 使用 Hive 查询 Sqoop 到 MySQL

我想将Hive表中的数据sqoop到MySQL表中。两者具有相同的列集,但它们的顺序不同。有没有办法使用具有属于mysql表的列顺序的Hive查询将数据sqoop到mysql表? 最佳答案 Sqoop目前不支持Hive查询的“导出”操作。支持的解决方法是运行Hive查询,该查询将更改Hive中的列顺序并将其结果作为临时表存储在Hive中。然后,您可以使用Sqoop导出此临时表。 关于mysql-使用Hive查询Sqoop到MySQL,我们在StackOverflow上找到一个类似的问题:

hadoop - Hive 从客户端机器加载数据

我正在尝试编写一个独立的java文件,以在Windows机器中使用HiveJDBC连接到hadoopdb,并从本地csv文件加载表数据。我收到错误“语义分析错误:第1:23行无效路径'd:/Sample2.txt':仅接受"file"或“hdfs”文件系统。我正在尝试的是对还是错?我们可以为hadoopdb从客户端windows机器加载数据吗? 最佳答案 我认为你需要使用类似的东西:file:d:/Sample2.txt 关于hadoop-Hive从客户端机器加载数据,我们在StackO

unit-testing - 如何让 HBaseTestingUtility 在 map reduce 作业中查找类?

我们正在使用cdh3u4、Hadoop和HBase。在启动HBaseTestingUtility提供的miniMapReduceCluster之后,我正在尝试运行一个单元测试以启动MapReduce作业。作业失败并在map和reducer任务stderr日志中显示:Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop/mapred/ChildCausedby:java.lang.ClassNotFoundException:org.apache.hadoop.mapred.Childatjava.