AdminManualConfiguration-hive-sit

hadoop - 从选择插入到 Hive 表时分区列

我正在研究Hive中的分区并发现:http://www.brentozar.com/archive/2013/03/introduction-to-hive-partitioning/在这个链接中，作者说:“将数据插入分区时，有必要将分区列作为查询中的最后一列。源查询中的列名不需要与分区列名匹配，但它们确实需要在最后-无法以不同方式连接Hive”我有这样的查询:insertoverwritetableMyDestTablePARTITION(partition_date)selectgrid.partition_date,….我有上面的查询已经运行了一段时间没有错误。如您所见，我选择分

database - 向 hive 表中插入数据

使用Cygwin发行版，我安装了Hadoop0.20.3和Hive0.11.0。首先，我不明白如何使用HiveCLI:hive>showtables;然后输入，没有任何反应。我可以使用hive-e/-f.执行查询然后，我创建了一个表:CREATETABLEtweet_table(tweetSTRING)COMMENT'Tableofstring'但是我怎样才能将数据插入到这个表中呢？我看到了一些INSERTINTO示例，但是当我尝试时:INSERTINTOTABLEtweet_table(tweet)VALUES("data")我有一个错误:FAILED:ParseExceptionl

hadoop - 在 hive 中创建 TABLE 后添加 PARTITION

我已经创建了一个非分区表并将数据加载到表中，现在我想在该表中添加一个基于部门的PARTITION，我可以这样做吗？如果我这样做:ALTERTABLEStudentADDPARTITION(dept='CSE')location'/test';它给我错误:FAILED:SemanticExceptiontableisnotpartitionedbutpartitionspecexists:{dept=CSE}请帮忙。谢谢最佳答案首先以这样的方式创建一个表，使表中没有分区列。createexternaltableStudent(co

hadoop - Hive 如何为一个工作选择 reducer 的数量？

有几个地方说Hadoop作业中默认的reducer数量是1。您可以使用mapred.reduce.tasks符号手动设置reducer的数量。当我运行Hive作业(在AmazonEMR、AMI2.3.3上)时，它有一些大于1的reducer。查看工作设置，有些东西设置了mapred.reduce.tasks，我假设是Hive。它是如何选择那个数字的？注意:这里是运行Hive作业时的一些消息，应该是一个线索:...Numberofreducetasksnotspecified.Estimatedfrominputdatasize:500Inordertochangetheaveragel

hadoop - 我们可以直接将 Parquet 文件加载到 Hive 中吗？

我知道我们可以使用SparkSQL和Impala加载parquet文件，但想知道我们是否可以使用Hive做同样的事情。我已经阅读了很多文章，但我仍然感到困惑。简单地说，我有一个parquet文件-比如users.parquet。现在我对如何从users.parquet加载/插入/导入数据到配置单元(显然是到表中)感到震惊。如果我遗漏了一些明显的东西，请告诉我或指出正确的方向。Creatinghivetableusingparquetfilemetadatahttps://phdata.io/examples-using-textfile-and-parquet-with-hive-an

hadoop - 如何确定 Hive 表是外部表还是内部表？

我在这里有多个问题。我正在寻找任何配置单元shell命令或查询以查找以下详细信息。给定一个Hive数据库名称，如何获取该数据库中的外部表列表？给定一个hive表名，如何判断该表是外部表还是内部表？提前致谢最佳答案 1)给定一个hive数据库名称，如何获取该数据库中的外部表列表？你可以试试这个命令:SHOWTABLES[INdatabase_name][identifier_with_wildcards];它会给你所有的表。据我所知，没有直接命令可以知道所有外部/内部类型的表。为此，您已使用JDBC连接连接到HiveMetastor

sql - 如何通过运算符(operator)从 Hive 组中获取元素数组/包？

我想按给定字段分组并获得包含分组字段的输出。以下是我要实现的目标的示例:-假设一个名为“sample_table”的表有两列，如下所示:-F1F2001111001222001123002222002333003555我想编写将提供以下输出的Hive查询:-001[111,222,123]002[222,333]003[555]在Pig中，这可以很容易地通过这样的事情来实现:-grouped_relation=GROUPsample_tableBYF1;有人可以建议在Hive中是否有一种简单的方法可以做到这一点？我能想到的是为此编写一个用户定义函数(UDF)，但这可能是一个非常耗时的选

最全HSQL命令大全(Hive命令)

第1章算数运算1.1加法：+语法：A+B操作类型：所有数值类型说明：返回A与B相加的结果。结果的数值类型等于A的类型和B的类型的最小父类型（详见数据类型的继承关系）。比如，int+int一般结果为int类型，而int+double一般结果为double类型hive>select1+9fromiteblog;10hive>createtableiteblogasselect1+1.2fromiteblog;hive>describeiteblog;double1.2减法：-语法：A-B操作类型：所有数值类型说明：返回A与B相减的结果。结果的数值类型等于A的类型和B的类型的最小父类型（详见数据类型

hadoop - 如何在 Hive 中编写子查询和使用 "In"子句

如何在Hive中使用In子句我想在Hive中写这样的东西selectxfromywherey.zin(selectdistinctzfromy)orderbyx;但我没有找到任何方法来做到这一点..我在Hive0.7中尝试了In子句，它抛出了错误，我也尝试了Find_in_Set..使用find_in_set(y.z,subquery)..但作业失败了。我想在Hive上执行此操作。如果有人知道如何在Hive中执行此操作，请帮助我。感谢和问候，阿图尔最佳答案你可以使用半连接(https://cwiki.apache.org/Hiv

date - Hive:动态分区添加到外部表

我正在运行配置单元071，处理具有以下目录布局的现有数据:-表名-d=(例如2011-08-01)-d=2011-08-02-d=2011-08-03...等等在每个日期下我都有日期文件。现在加载我正在使用的数据CREATEEXTERNALTABLEtable_name(iint)PARTITIONEDBY(dateString)LOCATION'${hiveconf:basepath}/TableName';**我希望我的配置单元脚本能够根据一些输入日期和天数加载相关分区。所以如果我通过date='2011-08-03'和days='7'该脚本应加载以下分区-d=2011-08-03