$hive_草庐IT

hadoop - 具有复杂数据类型的 parquet 格式的 Hive DDL

有人可以帮我为这个以Parquet格式处理和存储的数据集创建HiveDDL吗。属性:{"freq":"8600","id":"23266","array":[{"ver":"201.0.0.F","key_ver":"201.0.0.F","key":"001I1SS","code":"ACDEE","prod_code":"DSADVVSS","prod_key":"001123"}],"ipm":null,"offline":"1234234209600"} 最佳答案 CREATETABLEmy_table(freqINT,id

bash - 使用 bash 连接到 HIVE

我做了一个简单的bash脚本，它应该计算指定数据库中每个表中的列。问题是，那部分`hive-S-e'use'$database';describe'$word''|grep-e'^[a-z]'|uniq|wc-l>>MY_PROJECTS/ColumnCountList.txt`由于配置单元连接而消耗大量时间-每次计算下一个表中的列时，它都会再次连接到配置单元。有什么方法可以连接到Hive一次，然后只执行命令吗？它会快得多，尤其是当我为具有1k表的数据库执行此操作时。代码如下:#!/bin/bashdatabase=postables_list=`hive-S-e'use'$datab

java - Hive UDF 的语义异常错误。我正在尝试通过反转字符串进行测试

这是我的HiveUDF。我的类和方法对我来说似乎很好，第一种方法也有效，但当我给Hive命令selectto_upper('abc','def');时，第二种方法不起作用packagecom.hive.udf;importorg.apache.hadoop.hive.ql.exec.UDF;importorg.w3c.dom.Text;publicclassMyUpperUDFextendsUDF{publicMyUpperUDF(){System.out.println("Insidetheconstructor");}publicStringevaluate(Stringdata)

csv - 如何将 CSV 文件导出到带有逗号记录值的 Hive 表中？

输入文件11/24/2013,bankofnyc,withdrawl,deposit,inprogress11/16/2014,bankofdc,opeanig,closing,resolved我想要他们在table上DateBanknameissuestatus11/24/2013bankofnycwithdrawl,depositinprogress11/16/2014bankofdcopeanig,closingresolved 最佳答案好吧，问题是逗号没有转义...配置单元应该如何知道逗号是字符串的一部分还是分隔符？如果您

csv - 如何使用 header 将 Hive 查询的结果保存到文件系统？

我通读了thisquestion，这基本上就是我想要做的。由于几个原因，这种方法似乎最直接满足我的需要:DROPTABLEIFEXISTSTestHiveTableCSV;CREATETABLETestHiveTableCSVROWFORMATDELIMITEDFIELDSTERMINATEDBY','LINESTERMINATEDBY'\n'ASSELECTColumnListFROMTestHiveTable;但是，当我将该文件从HDFS移动到我的本地文件系统时，我丢失了header。知道如何添加标题吗？最佳答案使用seth

hadoop - Hive ql Driver如何指定默认以外的数据库名称

我正在编写一个示例程序，使用org.apache.hadoop.hive.ql.Driver类连接到HiveMetastore。示例片段如下StringuserName="test";HiveConfconf=newHiveConf(SessionState.class);conf.set("fs.default.name","hdfs://"+hadoopMasterHost+":8020");conf.set("hive.metastore.local","false");conf.set("hive.metastore.warehouse.dir","/user/hive/war

scala - 使用 Hivecontext，在本地系统 metastore_db 而不是 Cluster 中本地创建 Hive 表，在哪里放置我的 hive-site.xml

我已经创建了一个SparkContext对象，并尝试从hadoop服务器(不在我的本地)上的文本文件中检索文本，我能够检索到它。当我尝试检索Hive表(位于独立机器、集群上)时，我无法做到，当我创建一个Hive表时，它是在metastore_db中本地创建的objHiveContext.sql("createtableyahoo_orc_table(dateSTRING,open_priceFLOAT,high_priceFLOAT,low_priceFLOAT,close_priceFLOAT,volumeINT,adj_priceFLOAT)storedasorc")我尝试设置Me

hadoop - hive 工作花费太多时间

此阶段是表A(10万行)和表B(500万行)之间的键连接。表A只是一个2列的表，以id作为匹配键。尝试了很多方法将此阶段转换为Mapjoin而不是commonjoin，但它仍然作为commonjoin运行需要很长时间。有什么加快速度的建议吗？另外，为什么总是67%减少得如此之快，然后又需要很长时间才能逐步减少？2015-12-2101:12:55,635Stage-2map=0%,reduce=0%2015-12-2101:13:39,342Stage-2map=20%,reduce=0%,CumulativeCPU5.49sec2015-12-2101:13:43,618Stage-

java - 如何将 Pentaho 6.0 连接到 Hadoop-Hive

我正在尝试将Pentaho连接到Hive，以便我可以通过Pentaho运行Hive查询。我在我的Windows7(专业版64位)上安装了Pentaho6.0。我在“裸机服务器”上配置了Hadoop。Hadoop系统的详细介绍如下:ApacheHadoopV2.6hive1.1版yarn我尝试使用连接类型连接到Pentaho:Hadoop-Hive2，数据库名称:default和端口号:10000。我已从此Web链接添加了HiveJDBCjar文件:http://mvnrepository.com/artifact/org.apache.hive/hive-jdbc/1.1.0.最后，当

xml - HDP 沙盒上的 Hive ADD JAR

我需要将XML存储在HDFS中并在该HDFS文件夹之上创建配置单元表。我一直在尝试使用此link中提供的那个从link下载后，我已将serdejar添加到配置单元中使用添加jar命令。ADDJARhivexmlserde-1.0.5.3.jar我还收到消息“已添加到类路径”listjars也证实了这一点。但是当我尝试创建相同的link中提到的表时,它失败并显示以下消息FAILED:SemanticExceptoncannotfindclasscom.ibm.spss.hive.serde2.xml.XmlInputFormat请帮忙。注意:我使用的是HDP2.3附上结果截图。