HIVE

hadoop - 使用 Hive on spark 将数据从 gzip 格式转换为 sequenceFile 格式

I'mtryingtoreadalargegzipfileintohivethroughsparkruntimetoconvertintoSequenceFileformat而且，我想高效地做到这一点。据我所知，Spark只支持每个gzip文件一个映射器，就像它对文本文件一样。有没有办法改变正在读取的gzip文件的映射器数量？还是我应该选择另一种格式，如Parquet？我现在卡住了。问题是我的日志文件是类似json的数据，保存为txt格式，然后进行gzip压缩，所以为了阅读，我使用了org.apache.spark.sql.json。我看到的示例显示-将数据转换为SequenceFil

sequenceFile hadoop 射器 section table apache-spark hive pyspark

hadoop - 我们如何在配置单元中将字符串转换为数组？

我正在使用配置单元1.1hive>selectcountryfromreleaseslimit1;OK["us","ca","fr"]目前country在hive中是字符串类型。我如何将其转换为Array[String]？我尝试了下面的方法，但是它抛出错误hive>selectcountry,cast(countryasArray[String])fromreleaseslimit1;FAILED:ParseExceptionline1:48cannotrecognizeinputnear'Array''[''String'inprimitivetypespecification有人可

配置单为数 section 34 country hadoop hive

hadoop - 什么是 Hive 常见用例？

我是Hive的新手；所以，我不确定公司如何使用Hive。让我给您一个场景，看看我对Hive的使用在概念上是否正确。假设我的公司想要保留一些网络服务器日志文件，并且能够始终搜索和分析日志。因此，我创建了一个表列，其中的列对应于日志文件中的列。然后我将日志文件加载到表中。现在，我可以开始查询数据了。因此，随着数据在未来的日期到来，我只是不断地将数据添加到这个表中，因此我总是将我的日志文件作为Hive中的一个表，我可以通过它进行搜索和分析。这种情况是否属于常见用途？如果是，那么我如何继续向表中添加新的日志文件？我是否必须每天手动将它们添加到表中？最佳答案

hadoop Hive section code nosql

variables - 获取当前日期并将其设置为变量，以便将其用作 HIVE 中的表名

我想以YYMMDD的形式获取当前日期，然后将其设置为变量以便将其用作表名。这是我的代码:setdates=date+%Y-%m-%d;CREATEEXTERNALTABLEIFNOTEXISTSdates(idSTRING,regionSTRING,citySTRING)但是这个方法不行，因为好像赋值不对。有什么想法吗？最佳答案 Hive不计算变量，它按原样替换它们，在您的情况下，它将正是这个字符串'date+%Y-%m-%d'。也不可能使用像current_date()这样的UDF来代替DDL中的表名。解决方案是在shell中计

并将用作 code section date variables hadoop hive hiveql

datetime - 创建具有不规则日期/时间格式列的 Hive 表

我必须从csv创建一个Hive表，其中两列有一个日期/时间字段，格式如下:11/28/20188:35:23PM或11/30/20185:02:17AM等例如:responseidprocess_startprocess_endstatus2611/28/20188:35:23PM11/30/20185:02:17AMcomplete我知道我可以先将这些字段创建为字符串，然后再执行如下操作:insertintotablenewtableselectprocess_start,from_unixtime(unix_timestamp(process_start,'dd-MM-yyyyHH

不规则 datetime code section process hadoop hive hiveql simpledateformat

sql - 从分组查询中删除连接操作

我有一个看起来像这样的表:usr_idquery_ts123452019/05/13 02:061234442019/05/15 04:061234442019/05/16 05:06123452019/05/16 02:06123452019/05/15 02:06它包含一个用户ID，以及他们何时运行查询。表中的每个条目代表该ID在给定时间戳运行1个查询。我正在尝试制作这个:usr_idday_1day_2…day_3012345311315123444234114我想显示每个ID在过去30天内每天运行的查询数量，如果当天没有运行查询，它将是0。这是我提出的查询的一部分，SELECT

sql 从 unix_timestamp from_unixtime timestamp hadoop hive query-optimization hiveql

mysql - 如何在 hive 中的 select 语句中编写子查询，其中附加列的单个值是通过某些行的总和获得的

假设有一个表格，其中包含列作为学生表现的详细信息。Student(name,subject,marks,verdict('pass'/'fail')).我需要在此表中添加另一列，即特定学生不及格的科目总分。在MySQL中我可以这样写:select*,select(sum(marks)fromStudentwherename=s.nameandverdict='fail')fromStudents;但它在hive中不起作用。ERROR:UnsupportedSubQueryExpressionInvalidsubquery.SubqueryinSELECTcouldonlybetop-l

何在编写 section Student name mysql hadoop hive

hadoop - Spark(2.3) 无法识别通过 Hive Alter Table 命令添加的 Parquet 表中的新列

我有一个使用Spark2.3APIdf.saveAstable创建的HiveParquet表。有一个单独的Hive进程可以更改同一个Parquet表以添加列(根据要求)。但是，下次当我尝试将同一个parquet表读入Spark数据帧时，使用HiveAlterTable命令添加到parquet表的新列不会显示在df.printSchema输出中。根据初步分析，似乎可能存在一些冲突，Spark使用自己的模式而不是读取Hive元存储。因此，我尝试了以下选项:更改Spark设置:spark.sql.hive.convertMetastoreParquet=false并刷新spark目录:spa

Parquet hadoop code section table hive pyspark apache-spark-2.3

sql - Hive 相对于同一表中的其他数组列对数组列进行排序

我在hive中有一个表，其中2列为col1array和col2array.输出如下图col1col2[1,2,3,4,5][0.43,0.01,0.45,0.22,0.001]我想按升序对col2进行排序，并且col1也应该相应地更改其索引，例如col1col2[5,2,4,3,1][0.001,0.01,0.22,0.43,0.45] 最佳答案分解两个数组，排序，然后再次聚合数组。在collect_list之前的子查询中使用sort对数组进行排序:withyour_dataas(selectarray(1,2,3,4,5)asc

Hive sql col original_col original arrays hadoop hiveql

hadoop - Hive:修改外部表的位置需要太长时间

Hive有ManagedTables和ExternalTables两种表，区别可以查看Managed.VSExternalTables.目前，要将外部数据库从HDFS移动到Alluxio，我需要将外部表的位置修改为alluxio://。语句类似于:altertablecatalog_pagesetlocation"alluxio://node1:19998/user/root/tpcds/1000/catalog_returns"按照我的理解，应该是简单的metastore修改，但是对于一些表的修改，需要几十分钟。顺便说一句，数据库本身包含大约1TB的数据。我有什么办法可以加快表更改过

hadoop Hive code section Tables bigdata alluxio

106 107 108109110 111 112