草庐IT

hadoop - 配置 Hive 以本地模式运行

您好,我正在尝试以本地模式运行Hive,我已经设置了HIVE_OPTS环境变量exportHIVE_OPTS='-hiveconfmapred.job.tracker=local-hiveconffs.default.name=file://///hivelocal/tmp-hiveconfhive.metastore.warehouse.dir=file://///hivelocal/warehouse-hiveconfjavax.jdo.option.ConnectionURL=jdbc:derby:;databaseName=//hivelocal/metastore_db;cr

hadoop - 执行查询时 Hive 出现 IllegalArgumentException

好的,所以我正在尝试在配置单元上执行SHOWDATABASES,但是当我执行它时,它会返回此错误Failedwithexceptionjava.io.IOException:java.lang.IllegalArgumentException:java.net.URISyntaxException:RelativepathinabsoluteURI:${system:user.name%7D我检查了我的XML以查看发生了什么,但我没有做任何更改来修复此错误。这是XML的相关部分:hive.exec.scratchdir/tmp/hive-${user.name}HDFSrootscra

hadoop - 使用 UDF 的输出设置 Hive 变量

我正在尝试使用UDF函数的输出设置一个Hive变量,这样我就可以稍后在我的.hql脚本中的INSERTINTOmyTable中使用该值。这是myTable的DDL:CREATETABLEmyTable(CreationTimestampTIMESTAMP,TablenameCHAR(50),LastExtractedTimestampTIMESTAMP,OozieJobIDCHAR(40));以下无效:sethiveconf:ct=selectcurrent_timestamp;INSERTINTOmytableVALUES('${hiveconf:ct}','test','2015-

java - hive-jdbc-__-standalone.jar 的正确位置是什么?

关于设置hive0.14的指南:http://www.ishaanguliani.com/content/hive-0140-setup-ubuntu提示如果出错:Logginginitializedusingconfigurationinjar:file:/usr/local/hive/lib/hive-common-0.14.0.jar!/hive-log4j.propertiesSLF4J:ClasspathcontainsmultipleSLF4Jbindings.遇到文件hive-jdbc-0.14.0-standalone.jar必须从$HIVE_HOME/lib/移出但是

hadoop - hive理解表的创建

我正在服用mooc.它告诉我们使用以下命令将一些文件从我们的PC上传到hdfsazurestorageblobuploadlocal_pathcontainerdata/logs/2008-01.txt.gz我也是这样做的。后来当我在PUTTY安全shell中键入以下命令时,我能够看到该文件hdfsdfs-ls/data/logsFound6items-rwxrwxrwx13319412016-03-0315:56/data/logs/2008-01.txt.gz-rwxrwxrwx13319412016-03-0315:58/data/logs/2008-02.txt.gz-rwxr

scala - 用于 Spark 集成测试的 Hive 配置

我正在寻找一种方法来配置Hive以进行SparkSQL集成测试,以便将表写入临时目录或测试根目录下的某个位置。我的调查表明这需要同时设置fs.defaultFS和hive.metastore.warehouse.dir之前HiveContext被build。只需设置后者,如本answer中所述不适用于Spark1.6.1。valsqlc=newHiveContext(sparkContext)sqlc.setConf("hive.metastore.warehouse.dir",hiveWarehouseDir)表元数据位于正确的位置,但写入的文件位于/user/hive/wareho

hadoop - 执行错误,从 org.apache.hadoop.hive.ql.exec.mr.MapRedTask 返回代码 1 (state=08S01,code=1)

我已经启动了metastore和hiveserver2#./hive--servicemetastore#./hive--servicehiveserver2当我执行以下查询时#./beeline-ujdbc:hive2://192.168.0.10:10000-e'selectcount(*)fromtest_tb'--hiveconfhive.root.logger=DEBUG,console--verbose=true抛出以下错误Error:Errorwhileprocessingstatement:FAILED:ExecutionError,returncode1fromorg

hadoop - 在 spark SQL 中加载数据时获取 Hive 表中的空值

将数据从文件加载到配置单元表时,将插入空值。sqlCon.sql("createtablehive_6(idInt,nameString)partitionedby(dateString)rowformatdelimitedfieldsterminatedby','");sqlCon.sql("loaddatalocalinpath'/home/cloudera/file.txt'intotablehive_6partition(date='19July')");sqlCon.sql("select*fromhive_6").show()+----+----+------+|id|na

sql - 如何在 HIVE 中使用 "in"和 "having"子句?

我的数据是这样的:col1col2col3AB3AB1AB2CB1我想获取所有包含col3某些行的col1和col2的唯一组。比如,所有包含“2”的col1和col2组。我想做这样的事情:selectcol1,col2fromsometablegroupbycol1,col2havingcol3=1andcol3=2但我希望它只返回在col3中同时具有1和2实例的组。所以,查询后的结果应该是这样的:col1col2AB我如何在HIVE中表达它?谢谢。 最佳答案 我不知道为什么其他人删除了正确然后几乎正确的答案,但我会备份他们的答案。

regex - Hive:在字符的第一次出现和最后一次出现之间提取字符串

我有一个Hive表列,其中的字符串由“-”分隔,我需要提取第一次和最后一次出现的“-”之间的字符串+-----------------+|col1|+-----------------+|abc-123-na-00-sf||123-abc-01-sd||123-abcd-sd|+-----------------+Requiredoutput:+-----------+|col1|+-----------+|123-na-00||abc-01||abcd|+-----------+请建议一些正则表达式来提取所需的输出。谢谢 最佳答案