HIVE2

hadoop - Hive 和 Hadoop MapReduce 之间的关系？

是否有任何连接到reduce或map任务的Hive内部进程？添加到那个!Hive如何与MapReduce结合使用？工作是如何安排的？查询结果如何返回给hivedriver？最佳答案对于HIVE，没有直接通信Map/Reduce任务的过程。它与Jobtracker(YARN中的ApplicationMaster)进行通信(流程6.3)，仅用于一旦安排好作业处理相关的事情。这张图片将使您清楚地了解，HowHIVEusesMapReduceasexecutionengine?Howisthejobgettingscheduled?Ho

hadoop - 使用 Pig/Hive 进行数据处理而不是直接使用 java map reduce 代码？

(比DifferencebetweenPigandHive?Whyhaveboth?更基础)我有一个数据处理管道，用Hadoop上的多个Javamap-reduce任务编写(我自己的自定义代码，源自Hadoop的Mapper和Reducer)。它是一系列基本操作，例如连接、反转、排序和分组依据。我的代码涉及并且不是很通用。继续这种公认的开发密集型方法与使用多个UDF将所有内容迁移到Pig/Hive的优缺点是什么？哪些工作我不能执行？我会遭受性能下降(使用100sTB)吗？维护时我会失去调整和调试代码的能力吗？我能否将部分作业作为Javamap-reduce进行流水线处理，并将它们的输入

hadoop reduce section stackoverflow mapreduce hive apache-pig

join - 运行 HIVE Join 查询时，Reducers 在 66.68% 时停止工作

尝试连接6个表，每个表中大约有500万行。尝试加入在所有表上按升序排序的帐号。Map任务成功完成，reducer在66.68%时停止工作。尝试了增加reducer数量等选项，还尝试了其他选项sethive.auto.convert.join=true;并设置hive.hashtable.max.memory.usage=0.9；并设置hive.smalltable.filesize=25000000L；但结果是一样的。尝试使用少量记录(如5000行)，查询效果非常好。请建议可以在这里做什么以使其发挥作用。最佳答案 66%的Redu

Reducers 66.68%section reducer 1000 join hadoop mapreduce hive

hadoop - Hive Buckets——理解TABLESAMPLE(BUCKET X OUT OF Y)

您好，我是Hive的新手，我已经了解了hadoop中的桶概念，但未能理解以下几行。有人可以帮助我吗？SELECTavg(viewTime)FROMpage_viewTABLESAMPLE(BUCKET1OUTOF32);TABLESAMPLE的一般语法是表样本(从y中取出x桶)查询的样本量约为1/y。此外，y需要是创建表时为表指定的桶数的倍数或因数。例如，如果我们将y更改为16，则查询变为SELECTavg(viewTime)FROMpage_viewTABLESAMPLE(BUCKET1OUTOF16);那么样本量大约包括每16个用户中的1个(因为bucket列是userid)。该表

mdash TABLESAMPLE code section hadoop mapreduce hive

hadoop - Hive 0.14.0 未启动

我有hadoop1.2.1，我在单个节点上安装了hive0.14.0$hiveLogginginitializedusingconfigurationinjar:file:/usr/local/hive/lib/hive-common-0.14.0.jar!/hive-log4j.propertiesExceptioninthread"main"java.lang.RuntimeException:java.lang.RuntimeException:Therootscratchdir:/tmp/hiveonHDFSshouldbewritable.Currentpermissions

hadoop Hive SessionState

hadoop - 将时间戳插入 Hive

大家好，我是Hive新手，我想将当前时间戳与一行数据一起插入到我的表中。这是我的团队表的示例:team_idintfnamestringlnamestringtimetimestamp我看过其他一些例子，HowtoinserttimestampintoaHivetable?,HowcanIaddatimestampcolumninhive似乎无法让它发挥作用。这就是我正在尝试的:insertintoteamvalues('101','jim','joe',from_unixtime(unix_timestamp()));我得到的错误是:FAILED:SemanticException[

hadoop Hive code timestamp section apache-hive

hadoop - 在 Hive 中永久添加/定义 Jar

我试图使用下面的添加命令在Hive类路径中添加一个jar。命令:hive>添加myjar.jar但是每当我登录到配置单元时，我都需要使用添加命令添加myjar.jar。有什么方法可以将它永久添加到HiveClasspath中。问候，穆罕默德·尼亚兹最佳答案将此添加到您的.hiverc文件addjarmyjar.jar如果您需要更多信息，请查看此内容http://hadooped.blogspot.in/2013/08/hive-hiverc-file.html 关于hadoop-在H

hadoop Hive section 尼亚兹 hive-hiverc-file hiveql

hadoop - 按现有字段分区 Hive 表？

我可以在插入现有字段时对Hive表进行分区吗？我有一个10GB的文件，其中包含一个日期字段和一个小时字段。我可以将这个文件加载到一个表中，然后插入覆盖到另一个使用这些字段作为分区的分区表中吗？像下面这样的东西会起作用吗？INSERTOVERWRITETABLEtealeaf_eventPARTITION(dt=evt.datestring,hour=evt.hour)SELECT*FROMstaging_eventevt;谢谢!特拉维斯最佳答案我刚刚遇到这个问题，试图回答同样的问题，它很有帮助，但还不够完整。简短的回答是肯定的，

hadoop Hive code section partitioned partitioning hdfs database-partitioning

hadoop - 在 Hive 中获取 sysdate -1

有什么方法可以让Hive中的currentdate-1总是意味着yesterdaysdate？并且采用这种格式-20120805？我可以像这样运行查询以获取昨天的日期的数据，因为今天是8月6日-select*fromtable1wheredt='20120805';但是当我尝试使用date_sub函数以这种方式获取昨天的日期时，因为下表在date(dt)列上进行了分区。select*fromtable1wheredt=date_sub(TO_DATE(FROM_UNIXTIME(UNIX_TIMESTAMP(),'yyyyMMdd')),1)limit10;它正在寻找所有分区中的数据？

sysdate hadoop code section date mapreduce hive hiveql

hadoop - Presto 和 Hive 分区发现

我主要使用带有Hive连接器的Presto来连接到HiveMetastore。我的所有表都是指向存储在S3中的数据的外部表。我的主要问题是没有办法(至少我知道)在Presto中进行分区发现，所以在我开始在Presto中查询表之前，我需要切换到配置单元并运行msck修复表mytable在Presto中是否有更合理的方式来做到这一点？最佳答案我使用的是0.227版，以下内容对我有帮助:从hive.yourschema."yourtable$partitions"中选择*此选择返回目录中映射的所有分区。您可以像普通查询一样过滤、排序等

hadoop Presto section 中进 amazon-s3 hive

87 88 899091 92 93