hive-overwrite

hadoop - Hive Buckets——理解TABLESAMPLE(BUCKET X OUT OF Y)

您好，我是Hive的新手，我已经了解了hadoop中的桶概念，但未能理解以下几行。有人可以帮助我吗？SELECTavg(viewTime)FROMpage_viewTABLESAMPLE(BUCKET1OUTOF32);TABLESAMPLE的一般语法是表样本(从y中取出x桶)查询的样本量约为1/y。此外，y需要是创建表时为表指定的桶数的倍数或因数。例如，如果我们将y更改为16，则查询变为SELECTavg(viewTime)FROMpage_viewTABLESAMPLE(BUCKET1OUTOF16);那么样本量大约包括每16个用户中的1个(因为bucket列是userid)。该表

hadoop - Hive 0.14.0 未启动

我有hadoop1.2.1，我在单个节点上安装了hive0.14.0$hiveLogginginitializedusingconfigurationinjar:file:/usr/local/hive/lib/hive-common-0.14.0.jar!/hive-log4j.propertiesExceptioninthread"main"java.lang.RuntimeException:java.lang.RuntimeException:Therootscratchdir:/tmp/hiveonHDFSshouldbewritable.Currentpermissions

hadoop Hive SessionState

hadoop - 将时间戳插入 Hive

大家好，我是Hive新手，我想将当前时间戳与一行数据一起插入到我的表中。这是我的团队表的示例:team_idintfnamestringlnamestringtimetimestamp我看过其他一些例子，HowtoinserttimestampintoaHivetable?,HowcanIaddatimestampcolumninhive似乎无法让它发挥作用。这就是我正在尝试的:insertintoteamvalues('101','jim','joe',from_unixtime(unix_timestamp()));我得到的错误是:FAILED:SemanticException[

hadoop Hive code timestamp section apache-hive

hadoop - 在 Hive 中永久添加/定义 Jar

我试图使用下面的添加命令在Hive类路径中添加一个jar。命令:hive>添加myjar.jar但是每当我登录到配置单元时，我都需要使用添加命令添加myjar.jar。有什么方法可以将它永久添加到HiveClasspath中。问候，穆罕默德·尼亚兹最佳答案将此添加到您的.hiverc文件addjarmyjar.jar如果您需要更多信息，请查看此内容http://hadooped.blogspot.in/2013/08/hive-hiverc-file.html 关于hadoop-在H

hadoop Hive section 尼亚兹 hive-hiverc-file hiveql

hadoop - 按现有字段分区 Hive 表？

我可以在插入现有字段时对Hive表进行分区吗？我有一个10GB的文件，其中包含一个日期字段和一个小时字段。我可以将这个文件加载到一个表中，然后插入覆盖到另一个使用这些字段作为分区的分区表中吗？像下面这样的东西会起作用吗？INSERTOVERWRITETABLEtealeaf_eventPARTITION(dt=evt.datestring,hour=evt.hour)SELECT*FROMstaging_eventevt;谢谢!特拉维斯最佳答案我刚刚遇到这个问题，试图回答同样的问题，它很有帮助，但还不够完整。简短的回答是肯定的，

hadoop Hive code section partitioned partitioning hdfs database-partitioning

hadoop - 在 Hive 中获取 sysdate -1

有什么方法可以让Hive中的currentdate-1总是意味着yesterdaysdate？并且采用这种格式-20120805？我可以像这样运行查询以获取昨天的日期的数据，因为今天是8月6日-select*fromtable1wheredt='20120805';但是当我尝试使用date_sub函数以这种方式获取昨天的日期时，因为下表在date(dt)列上进行了分区。select*fromtable1wheredt=date_sub(TO_DATE(FROM_UNIXTIME(UNIX_TIMESTAMP(),'yyyyMMdd')),1)limit10;它正在寻找所有分区中的数据？

sysdate hadoop code section date mapreduce hive hiveql

hadoop - Presto 和 Hive 分区发现

我主要使用带有Hive连接器的Presto来连接到HiveMetastore。我的所有表都是指向存储在S3中的数据的外部表。我的主要问题是没有办法(至少我知道)在Presto中进行分区发现，所以在我开始在Presto中查询表之前，我需要切换到配置单元并运行msck修复表mytable在Presto中是否有更合理的方式来做到这一点？最佳答案我使用的是0.227版，以下内容对我有帮助:从hive.yourschema."yourtable$partitions"中选择*此选择返回目录中映射的所有分区。您可以像普通查询一样过滤、排序等

hadoop Presto section 中进 amazon-s3 hive

csv - 使用 CSV Serde 和 Hive 创建表将所有字段类型转换为字符串

如果我创建一个表并指定一个CSVSerde，那么所有字段都将转换为字符串类型。hive>创建表foo(aint,bdouble,cstring)行格式serde'com.bizo.hive.serde.csv.CSVSerde'存储为文本文件；好的耗时:0.22秒配置单元>描述foo；好的来自反序列化器的字符串b来自反序列化器的字符串来自反序列化器的c字符串耗时:0.063秒，获取:3行Serde来自https://github.com/ogrodnek/csv-serde如果我从这个页面尝试serde'org.apache.hadoop.hive.serde2.OpenCSVSerd

Serde Hive section csv hadoop hiveql opencsv

sql - 在 Hive 中加入日期范围内的表

我需要在employee_id上将表A连接到表B，并且表A的cal_date需要介于表B的日期开始和日期结束之间。我运行了下面的查询并收到了下面的错误消息，你能帮我更正和查询吗.谢谢你的帮助!在JOIN'date_start'中遇到左右别名。selecta.*,b.skill_groupfromtableAaleftjointableBbona.employee_id=b.employee_idanda.cal_date>=b.date_startanda.cal_date 最佳答案 RTFM-引用LanguageManualJoi

中加 Hive section date employee_id sql hadoop left-join

hadoop - 百分位数函数在 Hive 中如何工作？

假设以下列名为id:68694354566169707172777879858788899395969899996266如果我执行以下操作:percentile(id,0.9)，输出为97.2。这是怎么回事？最佳答案如果您输入0.9，您预计您提供给函数的90%数据将低于返回值。25的90%大约是22.5，而97.2可以是正确答案，因为在你的集合中四个最高值是99999896，而97.2在第22(96)和第23(98)个有序数字之间。关于hadoop-百分位数函数在Hive中如何工作

hadoop Hive section code stackoverflow hiveql