HIVE2

hadoop - Apache hive MSCK REPAIR TABLE 未添加新分区

我是ApacheHive的新手。在处理外部表分区时，如果我直接向HDFS添加新分区，则在运行MSCKREPAIR表后不会添加新分区。以下是我试过的代码，--创建外部表hive>createexternaltablefactory(namestring,empidint,ageint)partitionedby(regionstring)>rowformatdelimitedfieldsterminatedby',';--详细的表格信息Location:hdfs://localhost.localdomain:8020/user/hive/warehouse/factoryTableTy

hadoop - 您可以使用 Spark SQL/Hive/Presto 直接从 Parquet/S3 复制到 Redshift 吗？

我们有大量服务器数据存储在S3中(很快将采用Parquet格式)。数据需要一些转换，因此它不能是S3的直接副本。我将使用Spark来访问数据，但我想知道是否可以不使用Spark来处理它，写回S3，然后复制到Redshift，如果我可以跳过一个步骤，运行查询以提取/转换数据，然后将其直接复制到Redshift？最佳答案没问题，完全有可能。读取parquet的Scala代码(取自here)valpeople:RDD[Person]=...people.write.parquet("people.parquet")valparquet

Redshift Parquet section code 34 hadoop amazon-s3 apache-spark apache-spark-sql

Hadoop- hive : Delete data which is older than specified no of days

我正在从事一个电信项目，该项目使用Hadoop-hive进行数据分析。一天，我们将获得数百万条记录。在指定的天数之后，我们需要删除旧数据，因为我们没有存储容量。删除记录的最佳方法是什么？附加信息:这些配置单元表将有一个包含填充日期的列。最佳答案我认为您的用例非常适合在Hive表中使用“日”分区。如果“天”只是一列，那么维护和清理表格将变得困难。分区在Hive中的真正含义是每个“天”都有一个目录例如:createtablemytable(...)partitionedby(daystring)因此，当您添加数据时，您将在HDFS中

specified Hadoop code section mytable hive bigdata

sql - 如何在 Presto/Hive 中将日期格式 YYYY-MM-DD 转换为整数 YYYYMMDD？

如何在Presto/Hive中将格式为YYYY-MM-DD的日期CONVERT为整数YYYYMMDD？我正在尝试将下面的列表转换为YYYYMMDD整数WITHall_datesas(SELECTCAST(date_columnASDATE)date_columnFROM(VALUES(SEQUENCE(FROM_ISO8601_DATE('2017-07-01'),FROM_ISO8601_DATE('2017-11-15'),INTERVAL'1'DAY)))ASt1(date_array)CROSSJOINUNNEST(date_array)ASt2(date_column))我试

何在 YYYY-MM-DD code section date_column sql date hadoop hive presto

configuration - 为 Hive 中的 INSERT OVERWRITE SELECT 指定压缩编解码器

我有一个像这样的hive表CREATETABLEbeacons(foostring,barstring,foonotbarstring)COMMENT"Digestofdailybeacons,byday"PARTITIONEDBY(daystringCOMMENt"InYYYY-MM-DDformat");为了填充，我正在做类似的事情:SEThive.exec.compress.output=True;SETio.seqfile.compression.type=BLOCK;INSERTOVERWRITETABLEbeaconsPARTITION(day="2011-01-26")S

configuration OVERWRITE section compression code hadoop hive

hadoop - Hive 1.1.0 将表分区类型从 int 更改为 string

我有一个表，它有一个int类型的分区，但我想将其转换为字符串。但是，我不知道该怎么做。表的描述是:Col1timestampCol2stringCol3stringCol4stringPart_colint#Partitioninformation#col_namedata_typecommentPart_colint我创建的分区是Part_col=0,Part_col=1,...,Part_col=23我想将它们更改为Part_col='0'等我在配置单元中运行这个命令:sethive.exec.dynamic.partitions=true;Altertabletbl_namepa

hadoop string Part_col section Part hive partitioning ddl

hadoop - Hive 命令执行 NOT IN 子句

我有两个表，tab1和tab2。tab1(T1)tab2(T2)a1b1b1c1c1f1d1g1我正在寻找表T1中不存在于T2中的值。在这种情况下，输出应该是a1d1我已尝试使用以下查询，但无法获得正确的解决方案。selectdistincttab1.T1fromtab1leftsemijointab2on(tab1.T1!=tab2.T2); 最佳答案 SELECTt1.strFROMtab1t1LEFTOUTERJOINtab2t2ONt1.str=t2.strWHEREt2.strISNULL;结果:OKa1d1“Whyist

hadoop Hive section code tab

hadoop - Hive 是否可以在不分区或不编辑 hive-site.xml 的情况下递归下降到子目录？

我有一些Web服务器日志，我想用Hive查询。HDFS中的目录结构如下所示:/data/access/web1/2014/09/data/access/web1/2014/09/access-20140901.log[...etc...]/data/access/web1/2014/10/data/access/web1/2014/10/access-20141001.log[...etc...]/data/access/web2/2014/09/data/access/web2/2014/09/access-20140901.log[...etc...]/data/access/we

子目子目录 access 34 STRING hadoop mapreduce hive

hadoop - 在 Hive 中将日期作为命令行参数传递

我在test1.hql文件中有以下查询。我正在尝试将date(dt)作为命令行参数传递。select*fromlip_data_qualitywheredt='${hiveconf:start_date}';所以每当我尝试像这样从shell提示符运行上面的test1.hql文件时-hive-fhivetest1.hql-hiveconfstart_date=20120709我得到零条记录。但是该特定日期的数据在该表中。为什么会这样？我做错了什么？有人可以帮我吗？我在关注Bejoy'sArticle我正在使用Hive0.6 最佳答案

传递 hadoop code section start_date mapreduce hive

Hadoop/Hive - 将单行拆分为多行

我正在尝试找到一种方法，根据分隔的列将Hive中的一行拆分为多行。例如取一个结果集:ID1Subs11,222,3返回:ID1Subs11122223我在http://osdir.com/ml/hive-user-hadoop-apache/2009-09/msg00092.html找到了一些路标，但是我无法提供足够的详细信息来指出解决方案的方向，而且我不知道如何设置转换函数以返回一个可以拆分行的对象。最佳答案试试这个写法SELECTID1,SubFROMtableNamelateralviewexplode(split(Sub

多行 Hadoop section code split hive

89 90 919293 94 95