test_hive

hadoop - Hive - 在组中添加具有不同值数量的列

假设我有以下数据。numbergroup1a1a3a4a4a5c6b6b6b7b8b9b10b14b15b我想按group对数据进行分组，然后再添加一列，说明每个组有多少个不同的number值。我想要的输出如下所示:numbergroupdist_number1a31a33a34a34a35c16b96b96b97b98b99b910b914b915b9我试过的是:>select*,count(distinctnumber)over(partitionbygroup)fromnumbers;1111如您所见，这会在全局范围内聚合并独立于组计算不同值的数量。我可以做的一件事是使用grou

hadoop - 将 Hive 分区表存储为 Parquet 时计数器组过多

我创建了一个以id作为其分区的表样本，并将其以parquet格式存储。createtablesample(uuidString,dateString,NameString,EmailIDString,CommentsString,CompanyNameString,countryString,urlString,keywordString,sourceString)PARTITIONEDBY(idString)Storedasparquet;然后我使用下面的命令将值插入其中INSERTINTOTABLEsamplePARTITION(id)Selectuuid,date,Name,Em

Parquet hadoop apache java hive

hadoop - Hive 如何存储数据(从 HDFS 加载)？

我对Hadoop(HDFS和Hbase)和Hadoop生态系统(Hive、Pig、Impala等)相当陌生。我对NamedNode、DataNode、JobTracker、TaskTracker等Hadoop组件以及它们如何协同工作以高效方式存储数据有了很好的理解。在尝试了解Hive等数据访问层的基础知识时，我需要了解表的数据(在Hive中创建)的确切存储位置？我们可以在Hive中创建外部表和内部表。由于外部表可以在HDFS或任何其他文件系统中，因此Hive不会将此类表的数据存储在仓库中。内部表呢？该表将创建为Hadoop集群上其中一个数据节点上的目录。一旦我们从本地或HDFS文件系统

hadoop Hive 中创 section hbase hdfs bigdata

java - hive orc writer.close() 在 Windows 上运行时返回空指针异常

我正在创建orc文件并向该文件添加行。它在Linux上工作。但它不适用于windows.writer.close()返回NPE。请找到下面的代码和下面的堆栈跟踪，并在这方面给我帮助。代码:-包com.testing;importjava.io.IOException;importjava.util.Arrays;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.hive.ql.io.orc.OrcFile;importorg.apache.

Windows writer hadoop apache java

mysql - Hive 连接多个表和 where 语句

所以我对数据库做过任何事情，所以这可能很容易；但是，如果有人可以帮助我做到这一点，我会发现它非常有帮助(无论是在实践上还是在我自己的知识上)。设置:有3个表如下；表1:userToPizzacol1=用户(一个bigint)col2=pizza(一个bigint)表2:披萨转化率col1=pizza(一个bigint)col2=oven_loc(类型上是string，实际上是int)表3:烤炉col1=oven_loc(一个bigint)col2=fire_loc(一个bigint)现在我要做的是如下:SELECTpizzaFROMuserToPIzzaWHEREuser=1在我拥有所

mysql where userToPIzza pizzaConversion section database hadoop hive

hadoop - 类型为 boolean 的分区在 Hive 中总是为真

最近我安装了包含Hive1.1.0-cdh5.4.4的CDH5.4.4，然后我在Hive中发现了一些奇怪的东西:CREATETABLEboolean_partition_test(`assert`string)PARTITIONEDBY(`isreal`boolean);insertintotableboolean_partition_testpartition(isreal=false)select'Cloudy'fromdualwhereds='2015-11-01'limit1;当我运行以下查询时，我不敢相信:hive>showpartitionsboolean_partitio

boolean hadoop code boolean_partition_test hive

hadoop - HIVE ODBC - 故障转移

在HIVEJDBC驱动程序中-有使用Zookeper和多个HS2ip地址来处理故障转移的选项。jdbc:hive2://zookeeper_quorum|hs2_host:port/[db][;principal=/|_HOST@][;transportMode=binary|http][;httpPath=][;serviceDiscoveryMode=zookeeper;zooKeeperNamespace=]在HIVEODBC中，在ODBC.ini文件中，以下是支持的选项-[Hive]Driver=Description=HiveDriverv1DATABASE=defaultH

hadoop HIVE section code Driver odbc failover

hadoop - 多个 Hive 连接因执行错误而失败，返回代码 2

我正在尝试执行一个查询，其中一个表与其他两个表保持外部联接。查询如下:SELECTT.Rdate,c.Specialty_Cruises,b.Specialty_Cruisesfromarunf.PASSENGER_HISTORY_FACTTLEFTOUTERJOINarunf.RPT_WEB_COURTESY_HOLD_TEMPCon(unix_timestamp(T.RDATE,'yyyy-MM-dd')=unix_timestamp(c.rdate,'yyyy-MM-dd')ANDT.book_num=c.Courtesy_Hold_Booking_Num)LEFTOUTERJO

hadoop Hive java MapredLocalTask Operator mapreduce

hadoop - 从谷歌云存储直接下载文件到 HDFS 和 Hive 表

我在Windows命令行上工作，因为Unix和防火墙的问题阻止gsutil工作。我可以读取我的GoogleCloudStorage文件并将它们复制到其他存储桶(我不需要这样做)。我想知道的是如何将它们直接下载到HDFS(我正在“进入”)？有没有人这样做过？理想情况下，这是第一部分，第二部分是为GoogleCloudStorage数据创建Hive表，以便我们可以使用HiveQL和Pig。最佳答案您可以使用GoogleCloudStorageconnector它为您在GoogleCloudStorage中的数据提供了一个HDFS-A

歌云 hadoop section Storage Google hive hdfs google-cloud-storage

hadoop - Hive from_unixtime() 生成不合适的日期

我正在使用查询从名为dual的虚拟表生成时间戳。但是，从该表返回的日期似乎无效。selectString(max(max_lid_date))asprev_reqline_max_lid_date,from_unixtime(unix_timestamp(),'YYYY-MM-DDhh:mm:ss')asjob_start_date,from_unixtime(unix_timestamp(),'YYYY-MM-DD00:00:01')aspull_to_datefromxxcss_ktn_req_line_detail_log;查询结果:prev_reqline_max_lid_da

from_unixtime 不合 xxcss_ktn_req_line_detail_log date timestamp hadoop hive

102 103 104105106 107 108