HIVE2_草庐IT

hadoop - Spark(2.3) 无法识别通过 Hive Alter Table 命令添加的 Parquet 表中的新列

我有一个使用Spark2.3APIdf.saveAstable创建的HiveParquet表。有一个单独的Hive进程可以更改同一个Parquet表以添加列(根据要求)。但是，下次当我尝试将同一个parquet表读入Spark数据帧时，使用HiveAlterTable命令添加到parquet表的新列不会显示在df.printSchema输出中。根据初步分析，似乎可能存在一些冲突，Spark使用自己的模式而不是读取Hive元存储。因此，我尝试了以下选项:更改Spark设置:spark.sql.hive.convertMetastoreParquet=false并刷新spark目录:spa

sql - Hive 相对于同一表中的其他数组列对数组列进行排序

我在hive中有一个表，其中2列为col1array和col2array.输出如下图col1col2[1,2,3,4,5][0.43,0.01,0.45,0.22,0.001]我想按升序对col2进行排序，并且col1也应该相应地更改其索引，例如col1col2[5,2,4,3,1][0.001,0.01,0.22,0.43,0.45] 最佳答案分解两个数组，排序，然后再次聚合数组。在collect_list之前的子查询中使用sort对数组进行排序:withyour_dataas(selectarray(1,2,3,4,5)asc

Hive sql col original_col original arrays hadoop hiveql

hadoop - Hive:修改外部表的位置需要太长时间

Hive有ManagedTables和ExternalTables两种表，区别可以查看Managed.VSExternalTables.目前，要将外部数据库从HDFS移动到Alluxio，我需要将外部表的位置修改为alluxio://。语句类似于:altertablecatalog_pagesetlocation"alluxio://node1:19998/user/root/tpcds/1000/catalog_returns"按照我的理解，应该是简单的metastore修改，但是对于一些表的修改，需要几十分钟。顺便说一句，数据库本身包含大约1TB的数据。我有什么办法可以加快表更改过

hadoop Hive code section Tables bigdata alluxio

hadoop - 追加不与 hive 一起工作

我正在尝试将数据从表a插入到表b(两者都是外部表)，基本上依赖于环境的追加功能。我也对托管表进行了相同的尝试，但行为是相同的。不知何故，追加对我来说并不奏效。另一方面，覆盖工作得很好。例如以下失败hive>inserttablepage_viewselectviewtime,userid,page_url,countryfrompage_view1;FAILED:ParseError:line1:0cannotrecognizeinputnear'insert''table''page_view'ininsertclause但是，以下工作正常......hive>insertoverw

hadoop hive page_view page section

concurrency - hive中如何同时提交多个查询

我正在尝试使用CLI提交多个Hive查询，并且我希望这些查询同时运行。但是，这些查询是按顺序运行的。有人能告诉我如何调用多个Hive查询，以便它们实际上并发运行吗？最佳答案这不是因为Hive，它与您的Hadoop配置有关。默认情况下，Hadoop使用一个简单的FIFO队列来提交和执行作业。但是，您可以配置不同的策略，以便可以同时运行多个作业。这是Cloudera在2008年发表的一篇关于此事的精彩博文:JobSchedulinginHadoop几乎所有非默认的调度程序都支持并发作业，所以请选择!

concurrency hive section Hadoop stackoverflow

hadoop - 将多个文件添加到 HIVE 中的分布式缓存

我目前在将文件夹内容添加到Hives不可信缓存时遇到问题。我可以使用以下方法成功地将多个文件添加到Hive中的分布式缓存:ADDFILE/folder/file1.ext;ADDFILE/folder/file2.ext;ADDFILE/folder/file3.ext;etc..我还看到有一个ADDFILES(复数)选项，在我看来这意味着您可以指定一个目录，例如:ADDFILES/folder/;以及所有内容包含在文件夹中(这适用于HadoopStreaming-files选项)。但这不适用于Hive。现在我必须明确添加每个文件。我做错了吗？有没有办法将整个文件夹内容存储到分布式缓存

hadoop HIVE code folder section

hadoop - 在 Hive 中编码列

我正在使用Sqoop将一个表从mysql导入到hive。有些列是latin1编码的。有什么办法可以做到:在Hive中将这些列的编码设置为latin1。或者在使用sqoop导入时将列转换为utf-8？最佳答案在Hive中--default-character-set用于设置整个数据库的字符集，而不是特定于少数列。我无法找到Sqoop参数，该参数会将表列快速转换为utf-8，而列应该设置为固定类型。$sqoopimport--connectjdbc:mysql://server.foo.com/db--tablebar\--dire

hadoop Hive section utf-8 mysql sqoop

sql - 生成 map 的 Hive 聚合函数

我有以下配置单元表ID、类、值1,A,0.31,B,0.41,C,0.52,B,0.12,C,0.2我想得到ID，类:值1,[A:0.3,B:0.4,C:0.5]2,[B:0.1,C:0.2]我知道有一个collect_set()UDAF可以生成类列表或值列表，是否可以获取键值对列表？注意:我想我可以使用两个collect_set()，一个用于类列，一个用于值列，但我不确定列表的顺序是否相同。最佳答案我使用Brickhouse库中的UnionUDAF来做类似的事情。您从每一对创建一个映射，然后在聚合过程中将它们联合在一起。Add

Hive sql code section collect hadoop

java - 如何在 Hive JDBC 中禁用详细日志记录

有人知道如何禁用日志记录或降低HiveJDBC驱动程序的冗长程度吗？我正在使用hive-jdbc-0.8.1.jar并且我也在远程调试，因此，当查询一个巨大的数据集时，控制台消息的日志记录需要永远。我试图将我的log4java属性设置为仅错误级别:Propertieslog4jProperties=newProperties();log4jProperties.setProperty("log4j.rootLogger","DEBUG,myConsoleAppender");log4jProperties.setProperty("log4j.appender.myConsoleApp

何在 java log4 log log4j jdbc hadoop hive

hadoop - 如何从本地磁盘而不是 HDFS 上的数据在 Hive 上创建外部表？

对于HDFS上的数据，我们可以做CREATEEXTERNALTABLE{idINT,nameSTRING,ageINT}LOCATION'hdfs_path';但是如何为上面的LOCATION指定本地路径呢？谢谢。最佳答案您可以先使用“hdfsdfs-put”将文件上传到HDFS，然后在其上创建Hive外部表。Hive无法在本地文件上创建外部表的原因是，当Hive处理数据时，实际处理发生在Hadoop集群上，您的本地文件可能根本无法访问。关于hadoop-如何从本地磁盘而不是HDF

hadoop HDFS section Hive stackoverflow cloudera cloudera-cdh impala