草庐IT

hive-overwrite

全部标签

hadoop - Hive - 对分区的查询不返回任何内容

我有一个按特定开始日期(ds)分区的表。我可以查询最新的分区(前一天的数据),它会很好地使用分区。hive>selectcount(1)fromvtc4whereds='2012-11-01';...garbage...MapReduceJobsLaunched:Job0:Map:1Reduce:1CumulativeCPU:6.43secHDFSRead:46281957HDFSWrite:7SUCCESSTotalMapReduceCPUTimeSpent:6seconds430msecOK151225Timetaken:35.007seconds但是,当我尝试查询较早的分区时,h

java - 用Sqoop导出Hive表,有些行没有分隔

我有一个使用Hive生成​​的表(在AmazonElasticMapReduceJobFlow上)。我可以看到数据位于hdfs:///mnt/hive_081/warehouse/[tablename]。我把Sqoop打包成一个jar(没有做任何改动),上传到master节点进行测试。我这样运行我的sqoopjar:/usr/lib/jvm/java-6-sun/bin/java-cp/home/hadoop/conf:/usr/lib/jvm/java-6-sun/lib/tools.jar:/home/hadoop:/home/hadoop/hadoop-tools-1.0.3.j

sql - Hive 中 SQL Server UPDATE 命令的最佳等价物

Hive中SQLServerUPDATESET命令的最佳(更便宜)等价物是什么?例如,考虑我要转换以下查询的情况:UPDATETABLEemployeeSETvisaEligibility='YES'WHEREexperienceMonths>36等效于Hive查询。 最佳答案 我假设您有一个没有分区的表,在这种情况下您应该能够执行以下命令:INSERTOVERWRITETABLEemployeeSELECTemployeeId,employeeName,experienceMonths,salary,CASEWHENexperie

hadoop - Hive 使用的默认 JOIN 类型?

Hive使用的默认JOIN类型是什么?我知道Pig默认执行哈希连接。 最佳答案 Hive默认支持equi连接。您可以根据表的大小和排序顺序使用Map-sideJoin或MergeJoin来优化您的连接。查看此帖子了解更多详情:Hadoop'sMap-sidejoinimplementsHashjoin?更多详情:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Joins 关于hadoop-Hive使用的默认J

hadoop - 使用参数化位置的 Hive CREATE EXTERNAL TABLE

这按预期工作:DROPTABLEmytable;CREATEEXTERNALTABLEmytable(Dim1STRING,Dim2STRING,Dim3STRING)LOCATION'hdfs:///user/myuser/data';但这不是:setrootpath='hdfs:///user/myuser/data';DROPTABLEmytable;CREATEEXTERNALTABLEmytable(Dim1STRING,Dim2STRING,Dim3STRING)LOCATION'${hiveconf:rootpath}';失败并出现以下错误(Hive0.9.0):FAIL

hadoop - Sqoop 导出分区的 Hive 表

我在尝试导出分区的Hive表时遇到了一些问题。这是否得到完全支持(我尝试用谷歌搜索并找到了一张JIRA票)?sqoopexport--connectjdbc:mysql://localhost/testdb--tablesales--export-dir/user/hive/warehouse/sales--direct这是我得到的:00000_2,Status:FAILEDjava.io.FileNotFoundException:Filedoesnotexist:/user/hive/warehouse/sales/day=2013-04-01运行hadoopfs-ls/user/

hadoop - 无法使用 SERDE 创建 JSON 格式的 HIVE 表

我们对Hadoop和Hive还很陌生。我们创建了普通的Hive表并加载了数据。但是当我们使用JSON格式在Hive中创建表时,我们遇到了问题。我也添加了serdejar。我们收到以下错误:createtableairline_tables(Airlinestring,Airlineidstring,Sourceairportstring,Sourceairportidstring,Destinationairportstring,`Destinationairportidstring,Codesharestring,Stopstring,EquipmentString)`ROWFORM

database - 创建 Hive Metastore 数据库表错误

我正在运行ClouderaManager(免费版),我到达了向导创建HiveMetastore数据库的地步。显示此错误并停止配置过程。使用/var/run/cloudera-scm-agent/process/40-hive-metastore-create-tables/hadoop-conf作为HADOOP_CONF_DIR我似乎找不到任何可能导致此问题的信息?到目前为止,一切都已正确配置,安装的一切以及用户名和密码都是正确的。有人以前见过这个错误吗?想法?错误日志:atsun.reflect.DelegatingConstructorAccessorImpl.newInstanc

windows-7 - Hive 和 PIG/Grunt shell 卡在 cygwin 上

我在我的Windows7机器(32位)上以本地模式运行Hadoop。我已经把HIVE/PIG/Hadoop/Java6都安装在C盘了。我使用的是Cygwin版本:2.819。我已经在cygwin上安装了C:。我能够从cygwin终端运行hadoop命令,例如:fs-ls等。我还可以启动grunt和hiveshell。但真正的问题是:我在gruntshell上输入的任何命令(例如:fs-ls或records=LOAD.....)我没有看到任何输出,它有点挂起。与配置单元提示类似,如果我将命令作为showtables给出;我没有看到任何输出,只是光标一直在闪烁!任何键盘输入并没有给出任何结

sql - 如何在 Hive 中使用 between 实现连接?

我有一个Hive表,其中包含IP地址的数字版本。我有另一个包含开始、结束、位置的表,其中开始和结束定义了与位置关联的一系列数字IP。ExampleNumeric:29start|end|location----------------------1|11|66612|30|77731|40|888Output:29-777我需要使用表1中的IP来查找表2中的位置。我是Hive的新手,发现我不能在连接语句中使用BETWEEN或。我一直在尝试找出使用HiveSQL实现此目的的某种方法,但无法弄清楚。有办法吗?如果需要其中一个,我也有点熟悉UDF。我愿意接受这样的想法,即这在Hive中是不可