HIVE

linux - 如何通过 hive 表向 hbase 中插入数据？

我可以用这个查询创建一个Hive表CREATETABLEhbtable(keyint,valuestring)STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITHSERDEPROPERTIES("hbase.columns.mapping"=":key,cf1:val")TBLPROPERTIES("hbase.table.name"="xyz");我使用此查询将数据插入表中，但它不起作用，insertoverwritetablehbtableselect*fromhbtableswheres:hivefiels=

hadoop - 文本文件与序列文件

在hadoop中，我只是使用这两种格式来评估配置单元查询的性能。当我对存储为文本文件的表进行查询时，我得到的结果比存储为序列文件的结果早。但它不应该是其他方式吗？另外，仅供引用，我首先将数据加载到TEXT文件表中，然后将数据传输到SEQUENCEFILE表中。创建表文本(酸性整数，值字符串，id整数)以“~”终止的行格式分隔字段存储为文本文件；创建表seq(acidint,valuestring,idint)存储为序列文件；加载数据本地输入路径'-----'覆盖到表文本中；insertintotableseqselect*fromtext;TextFILE:Timetaken:36.2

本文 hadoop section seconds hive

mysql - 使用 Sqoop 从 MySQL 导入到 Hive

我必须通过Sqoop将MySQL表(具有复合主键)中的>4亿行导入到分区的Hive表Hive中。该表有两年的数据，一列出发日期从20120605到20140605，一天有几千条记录。我需要根据出发日期对数据进行分区。版本:ApacheHadoop-1.0.4Apachehive-0.9.0ApacheSqoop-sqoop-1.4.2.bin__hadoop-1.0.0据我所知，有3种方法:MySQL->未分区Hive表->从未分区Hive表插入已分区Hive表MySQL->分区Hive表MySQL->非分区Hive表->ALTER非分区Hive表以添加PARTITION是我正在关注的

mysql Sqoop section Hive hadoop hiveql

jdbc - Hive JDBC 客户端抛出 SQLException

我正在使用JDBC客户端代码连接到配置单元安装。我创建了一个包含两列(column1，column2)的测试表，它们都是字符串类型。当我尝试执行像“select*fromtest”这样的简单查询时，我在Java程序中得到了结果，但是使用where子句和其他复杂查询的查询会抛出以下异常。“查询返回非零代码:1，原因:失败:执行错误，从org.apache.hadoop.hive.ql.exec.MapRedTask返回代码1”我已经尝试更改存在文件的hdfs目录的权限，/tmp在本地目录上，但这没有用。这是我的连接代码Connectioncon=DriverManager.getConn

SQLException jdbc hadoop apache java client hive

sql - Hive是否支持Select中的Select？

Hive中的以下代码是否可能，并进行一些更改？:insertintotablewebmapselecta.resreference,b.resresource,(selectcount(ip)fromweblogwhereresource=a.resandreferer=b.res)weightfromtoprefresajointoprefresb;我在hive-0.10.0-cdh4.5.0中运行它并得到错误:FAILED:ParseExceptionline3:1cannotrecognizeinputnear'select''count''('inexpressionspeci

Select Hive section weblog sql hadoop hql

hadoop - 在 JobContext 中找不到工作信息

我在远程计算机上运行Java程序并尝试使用RecordReader对象读取拆分数据，但得到的是:Exceptioninthread"main"java.io.IOException:jobinformationnotfoundinJobContext.HCatInputFormat.setInput()notcalled?我已经调用了以下内容:_hcatInputFmt=HCatInputFormat.setInput(_myJob,db,tbl);然后创建RecordReader对象:_hcatInputFmt.createRecordReader(hSplit,taskContex

JobContext hadoop section code RecordReader hive hcatalog

hadoop - 减少许多 hive -e 调用的 hive 启动时间

我以这种方式从命令行调用hive-e数百次:cathive_script.hql|parallel--gnuhive-e'{}'hive_script.hql中的每一行都可以以任意顺序独立运行。有没有--hiveconf参数可以减少启动时间？Apache网页似乎暗示可能在https://cwiki.apache.org/confluence/display/Hive/LanguageManual+VariableSubstitution"ThisisfrustratingasHivebecomescloselycoupledwithscriptinglanguages.TheHives

hive 许多 section https hadoop amazon-web-services amazon-emr emr

hadoop - 将 snappy 压缩数据写入配置单元表

我已经创建了一个配置单元表，现在我想将活泼的压缩数据加载到表中。因此我做了以下事情:SETmapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;SEThive.exec.compress.output=true;SETmapreduce.output.fileoutputformat.compress=true;CREATETABLEtoydata_table(idSTRING,valueSTRING)ROWFORMATDELIMITEDFIELDSTERMI

配置单 hadoop apache java compression hive hiveql snappy

hadoop - 作业跟踪器中的配置单元查询

您好，我们正在最近升级到的CDH4环境中运行配置单元查询。我注意到的一件事是，在早期的CDH3中，我们能够在Jobtracker中跟踪我们的查询。类似于“hostname:50030/jobconf.jsp?jobid=job_12345”的链接会有一个参数“hive.query.string”或“mapred.jdbc.input.bounding.query”，其中包含实际查询MR作业被执行。但在CDH4中，我看不到在哪里可以获得查询。许多查询并行运行以跟踪我们关注的查询。最佳答案您仍然可以在工作跟踪器中查看配置单元查询。根

跟踪器配置单 section hadoop hive

java - 使用 Java 检索 Hive 表位置

有没有办法使用hive表检索hdfs位置Javajdbc.例如:我有一个临时表t1。在位置“/user/tables_list/t1”；我想使用java代码检索此位置。最佳答案据我所试，没有直接的方法可以做到这一点。但是，一旦您设置了JDBC连接，您就可以执行“DESCRIBEEXTENDED”，这(在我所做的测试中)将列出表列:res=stmt.executeQuery("DESCRIBEEXTENDEDtweets");while(res.next()){System.out.println(res.getString(1)

java section code pre hadoop jdbc hive

54 55 565758 59 60