HIVE_草庐IT

hadoop - 从谷歌云存储直接下载文件到 HDFS 和 Hive 表

我在Windows命令行上工作，因为Unix和防火墙的问题阻止gsutil工作。我可以读取我的GoogleCloudStorage文件并将它们复制到其他存储桶(我不需要这样做)。我想知道的是如何将它们直接下载到HDFS(我正在“进入”)？有没有人这样做过？理想情况下，这是第一部分，第二部分是为GoogleCloudStorage数据创建Hive表，以便我们可以使用HiveQL和Pig。最佳答案您可以使用GoogleCloudStorageconnector它为您在GoogleCloudStorage中的数据提供了一个HDFS-A

歌云 hadoop section Storage Google hive hdfs google-cloud-storage

hadoop - Hive from_unixtime() 生成不合适的日期

我正在使用查询从名为dual的虚拟表生成时间戳。但是，从该表返回的日期似乎无效。selectString(max(max_lid_date))asprev_reqline_max_lid_date,from_unixtime(unix_timestamp(),'YYYY-MM-DDhh:mm:ss')asjob_start_date,from_unixtime(unix_timestamp(),'YYYY-MM-DD00:00:01')aspull_to_datefromxxcss_ktn_req_line_detail_log;查询结果:prev_reqline_max_lid_da

from_unixtime 不合 xxcss_ktn_req_line_detail_log date timestamp hadoop hive

bash - 如何从 shell 中的最大日期中提取最后 7 天的行

我将max(pay_date)从Hive表传递给Shell中的变量Max_date。pay_date字段的数据类型是Date。我想从表的pay_date的Max_date中提取7天的pay_date。我使用下面的脚本来获取...#!/bin/bashMax_date=$(hive-e"selectmax(pay_date)fromdbname.tablename;")hive-e"selectpay_datefromdbname.tablenamewherepay_date>=date_sub(\"$Max_date\",7);"它没有给我任何输出。我坚持传递一个具有日期值的变量，并在

期中 shell date code order_date bash hadoop hive

java - 带有外部库的 Hadoop Hive UDF

我正在尝试为HadoopHive编写一个UDF，用于解析用户代理。以下代码在我的本地机器上运行良好，但在Hadoop上我得到:org.apache.hadoop.hive.ql.metadata.HiveException:Unabletoexecutemethodpublicjava.lang.StringMyUDF.evaluate(java.lang.String)throwsorg.apache.hadoop.hive.ql.metadata.HiveExceptiononobjectMyUDF@64ca8bfbofclassMyUDFwitharguments{AllOccu

Hadoop java String code section hive user-agent udf

hadoop - Hive:断言/测试两列始终包含相同的值

我想检查我的Hive表中具有相同类型的两列是否始终具有相同的值(可能是一个子集)。有人askedasimilarquestionpreviously，但我不认为它在那里得到了最终的回答。我基本上是在寻找sum(col==col2)类型的语义。最佳答案 selectsum(casewhen!(col1=col2)then1else0end)assum_not_equalfrom(select20col1,20col2unionallselect10col1,10col2)s或count(casewhen!(col1=col2)the

hadoop Hive section col code hiveql

java - 信息 : Transport Used for JDBC connection: null + Apache Hive

我正在尝试通过JDBC连接ApacheHive和eclipse，但出现以下错误。以下是版本信息:ApacheHadoop:2.7.1，Hive:1.2.1和EclipseKepler。****Error:****Dec29,20156:04:00PMorg.apache.hive.jdbc.UtilsparseURLINFO:Suppliedauthorities:localhost:10000Dec29,20156:04:00PMorg.apache.hive.jdbc.UtilsparseURLINFO:Resolvedauthority:localhost:10000Dec29,

connection Transport java 34 apache eclipse hadoop jdbc

hadoop - 如何查看hadoop服务的端口号

如何查看hadoop服务的端口号eg:hive,oozie,sqoop,pig等的端口号。听说每个hadoop服务都有一个端口号。最佳答案通常端口用于在配置文件中配置它自己，在“/etc/hadoop/conf/”或“/usr/local/hadoop/conf/”位置“hadoop”下可用，具有受人尊敬的名称，如“pig/hive/sqoop”等。名为“hdfs-site.xml/core-site.xml/hive-site.xml/mapred-site.xml...等”的配置Hadoop及其生态系统使用的一些默认端口是:

hadoop 如何 section address hive hdfs port bigdata

hadoop - Tez Pushdown Predicate 上的 Hive 在分区表上使用窗口函数的 View 中不起作用

在Tez上使用Hive针对此View运行此查询会导致全表扫描，即使在regionid和id上存在分区也是如此。ClouderaImpala中的这个查询需要0.6秒才能完成，而使用HortonworksDataPlatform和Tez上的Hive则需要800秒。我得出的结论是，在Tez上的Hive中使用窗口函数可以防止谓词被下推到内部选择，从而导致全表扫描。CREATEVIEWlatestpositionASWITHt1AS(SELECT*,ROW_NUMBER()OVER(PARTITIONBYregionid,id,deviceidorderbytsdesc)ASrownosFROM

Predicate Pushdown section https questions hadoop hive hortonworks-data-platform apache-tez

hadoop - Hive 当前日期函数

我想在直线上获取当前日期。我试着用这个:FROM_UNIXTIME(UNIX_TIMESTAMP())它输出这个:16-03-21我想要得到的东西:2016-03-2109:34我该怎么做？我在这里看到直线文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-DateFunctions但它对我不起作用。最佳答案您可以通过将预期格式作为from_unixtime函数的参数传递来获取它。示例:selectfro

hadoop Hive section code LanguageManualUDF-DateFunctions oozie beeline

hadoop - 加入 : space available is below the configured reserved amount 的配置单元查询

我在单节点集群上使用hive执行sql查询，我收到此错误:MapReduceJobsLaunched:Stage-Stage-20:HDFSRead:4456448HDFSWrite:0FAILTotalMapReduceCPUTimeSpent:0msec在日志http://localhost:50070/logs/hadoop-hadoop-namenode-hadoop.log中，可用空间似乎低于配置的保留量:org.apache.hadoop.hdfs.server.namenode.NameNodeResourceChecker:Spaceavailableonvolume'

配置单 configured java Stage apache hadoop hive hdfs hql