AdminManualConfiguration-hive-sit

hadoop - 在 Hive 中， "Load data local inpath"是覆盖现有数据还是追加？

我希望在cron上运行到Hive的导入，并且希望只使用“将数据本地输入路径‘/tmp/data/x’加载到表X”到表中就足够了。后续命令会覆盖表中已有的内容吗？还是会追加？最佳答案本站http://wiki.apache.org/hadoop/Hive/LanguageManual在处理Hive时是你的friend。:)解决将数据加载到Hive的页面是http://wiki.apache.org/hadoop/Hive/LanguageManual/DML该页面指出iftheOVERWRITEkeywordisusedthent

hadoop - hive/hadoop 如何确保每个映射器都处理本地数据？

困扰我的2个基本问题:我如何确定配置单元用于存储我的表的32个文件中的每一个都位于其唯一的机器上？如果发生这种情况，我如何确定如果hive创建了32个映射器，它们中的每一个都将处理其本地数据？hadoop/hdfs是否保证了这种魔力，或者作为智能应用程序的hive是否确保它会发生？背景:我有一个由32台机器组成的Hive集群，并且:我所有的表都是用"CLUSTEREDBY(MY_KEY)INTO32BUCKETS"创建的我使用hive.enforce.bucketing=true;我验证过，确实每个表都存储为32个文件在user/hive/warehouse中我使用的HDFS复制因子为

射器 hadoop section li hive hdfs

sql - 使用HiveQL(Hadoop)在Hive中联接两个表

这个问题已经在这里有了答案:已关闭8年。PossibleDuplicate:SQLQueryJOINwithTableCREATEEXTERNALTABLEIFNOTEXISTSTestingTable1(ThisistheMAINtablethroughwhichcomparisonsneedtobemade)(BUYER_IDBIGINT,ITEM_IDBIGINT,CREATED_TIMESTRING)这是上面第一个表中的数据**BUYER_ID**|**ITEM_ID**|**CREATED_TIME**--------------+------------------+---

联接 HiveQL code br prod_and_ts sql hadoop mapreduce hive

hadoop - hive中如何自动加载数据

最近想把日志文件加载到hive表中，想要一个可以从某个目录读取数据并自动加载到hive中的工具。这个目录可能包含很多子目录，比如某个目录是'/log'，子目录是'/log/20130115'、'/log/20130116'、'/log/201301017'。有没有一些ETL工具可以实现这样的功能:一旦新数据存储在某个目录下，该工具可以自动检测到这些数据并将它们加载到hive表中。有没有这样的工具，我必须自己写脚本吗？最佳答案您可以使用Hive外部表并按天对表进行分区轻松地做到这一点。例如，创建您的表:createexternal

hadoop hive code section strong load

hadoop - $HIVE_HOME/bin/hive --service hiveserver

我是Hadoop/hive的新手。我已经安装了hadoop和hive。当我使用hive作为命令提示符时它工作正常但是我要实现hive的JDBC然后键入以下命令hive>$HIVE_HOME/bin/hive--servicehiveserver然后出现以下错误，所以请帮助我如何实现配置单元的jdbc请任何人帮助我...hduser@ubuntu:~$$HIVE_HOME/bin/hive--servicehiveserverStartingHiveThriftServerWARNING:org.apache.hadoop.metrics.jvm.EventCounterisdeprec

hiveserver HIVE_HOME section hive apache hadoop apache-pig hiveql

hadoop - Hive 和 Hadoop MapReduce 之间的关系？

是否有任何连接到reduce或map任务的Hive内部进程？添加到那个!Hive如何与MapReduce结合使用？工作是如何安排的？查询结果如何返回给hivedriver？最佳答案对于HIVE，没有直接通信Map/Reduce任务的过程。它与Jobtracker(YARN中的ApplicationMaster)进行通信(流程6.3)，仅用于一旦安排好作业处理相关的事情。这张图片将使您清楚地了解，HowHIVEusesMapReduceasexecutionengine?Howisthejobgettingscheduled?Ho

MapReduce hadoop section strong Hive hdfs

hadoop - 使用 Pig/Hive 进行数据处理而不是直接使用 java map reduce 代码？

(比DifferencebetweenPigandHive?Whyhaveboth?更基础)我有一个数据处理管道，用Hadoop上的多个Javamap-reduce任务编写(我自己的自定义代码，源自Hadoop的Mapper和Reducer)。它是一系列基本操作，例如连接、反转、排序和分组依据。我的代码涉及并且不是很通用。继续这种公认的开发密集型方法与使用多个UDF将所有内容迁移到Pig/Hive的优缺点是什么？哪些工作我不能执行？我会遭受性能下降(使用100sTB)吗？维护时我会失去调整和调试代码的能力吗？我能否将部分作业作为Javamap-reduce进行流水线处理，并将它们的输入

hadoop reduce section stackoverflow mapreduce hive apache-pig

join - 运行 HIVE Join 查询时，Reducers 在 66.68% 时停止工作

尝试连接6个表，每个表中大约有500万行。尝试加入在所有表上按升序排序的帐号。Map任务成功完成，reducer在66.68%时停止工作。尝试了增加reducer数量等选项，还尝试了其他选项sethive.auto.convert.join=true;并设置hive.hashtable.max.memory.usage=0.9；并设置hive.smalltable.filesize=25000000L；但结果是一样的。尝试使用少量记录(如5000行)，查询效果非常好。请建议可以在这里做什么以使其发挥作用。最佳答案 66%的Redu

Reducers 66.68%section reducer 1000 join hadoop mapreduce hive

hadoop - Hive Buckets——理解TABLESAMPLE(BUCKET X OUT OF Y)

您好，我是Hive的新手，我已经了解了hadoop中的桶概念，但未能理解以下几行。有人可以帮助我吗？SELECTavg(viewTime)FROMpage_viewTABLESAMPLE(BUCKET1OUTOF32);TABLESAMPLE的一般语法是表样本(从y中取出x桶)查询的样本量约为1/y。此外，y需要是创建表时为表指定的桶数的倍数或因数。例如，如果我们将y更改为16，则查询变为SELECTavg(viewTime)FROMpage_viewTABLESAMPLE(BUCKET1OUTOF16);那么样本量大约包括每16个用户中的1个(因为bucket列是userid)。该表

mdash TABLESAMPLE code section hadoop mapreduce hive

hadoop - Hive 0.14.0 未启动

我有hadoop1.2.1，我在单个节点上安装了hive0.14.0$hiveLogginginitializedusingconfigurationinjar:file:/usr/local/hive/lib/hive-common-0.14.0.jar!/hive-log4j.propertiesExceptioninthread"main"java.lang.RuntimeException:java.lang.RuntimeException:Therootscratchdir:/tmp/hiveonHDFSshouldbewritable.Currentpermissions

hadoop Hive SessionState

87 88 899091 92 93