草庐IT

HBase-Hive

全部标签

hadoop - Hive:连接两个具有不同键的表

我有如下两个表格。基本上我想加入他们两个并期待如下结果。表2的前3行没有任何事件ID只是空的。所有字段均以制表符分隔。根据表2,类别“33”具有三个描述。我们需要使用“事件ID”来获取“33”类别的结果,因为它有3个值。谁能告诉我如何实现这个输出?表:1Empid类别ActivityID4412633火车4412710个UFL4412812个话题4412933未分配4413015微软4413133个好处4413243个好处表2:类别ActivityIDCategdesc10计费12计费15不可计费33TRAIN培训33未分配的替补席33好处好处43个好处预期输出:4412633训练44

hadoop - Hbase master 启动失败异常Java.Lang.NoSuchMethodException

我正在关注LarsGeorgeHbase权威指南。我正在我的MountainLionMacbookpro上设置一个伪分布式集群。我下载了Hadoop存档0.20.205.0,解压缩并做了一些小改动dfs.replication=1和其他人。当我在hbase-site.xml中进行更改以指定localhosthdfsnamenode时hbase.rootdir=hdfs://localhost:9000/hbase还有一些其他属性,比如zookeeperquorum,zookeeperdataDir,isDistributed=true等等。然而,在运行时bin/start-hbase.

hadoop - 在 Hive 中只显示一次 [优雅的方式]

如何使用内置的DateandTimefunctions只显示一次日期在mysql中我们可以做selectcurdate();得到+------------+|curdate()|+------------+|2013-07-23|+------------+尝试selectunixtime();在Hive中给我FAILED:ParseExceptionline1:17mismatchedinput''expectingFROMnear')'infromclause正在做,selectfrom_unixtime(unix_timestamp(),"yyyy-MM-hh")fromabc.

hadoop - 使用 JOIN 语法的 Hive RLIKE

我在配置单元上有两个表。第一个称为“访问”,包含apache日志,其中第一个字段是完整的ip地址:10.4.5.12--[26/Jun/2010:11:16:09+1000]"GET/myportal/pageAHTTP/1.1"10.4.41.2--[26/Jun/2010:11:18:09+1000]"GET/myportal/pageBHTTP/1.1"10.5.1.111--[26/Jun/2010:11:22:09+1000]"GET/myportal/pageAHTTP/1.1"192.10.4.177--[26/Jun/2010:11:22:41+1000]"GET/my

java - HBase 不存储所有记录

我的MongoDB数据库中有120万条记录。我想以编程方式将所有这些数据存储在HBase中。基本上我尝试将每个检索到的记录循环放入HBase。操作完成后,我在HBase上得到只有39912条记录。这是我尝试过的:Configurationconfig=HBaseConfiguration.create();StringtableName="storedtweet";StringfamilyName="msg";StringqualifierName="msg";HTabletable=newHTable(config,tableName);//usingSpringDataMongoD

hadoop - 如何从HDFS加载数据到Hive

我正在尝试将数据从HDFS加载到配置单元中。但我观察到数据正在移动,这意味着在将数据加载到配置单元环境后,如果我查看HDFS,我加载的数据不存在。你能用例子回答这个问题吗? 最佳答案 如果你想从HDFS中的数据在Hive中创建一个表而不将数据移动到/user/hive/warehouse/,你应该使用可选的EXTERNAL和LOCATION关键字。例如,来自thispage,我们有以下示例CREATETABLE语句:hive>CREATEEXTERNALTABLEuserline(lineSTRING)ROWFORMATDELIMI

java - 无法使用 mapreduce.LoadIncrementalHFiles 将 HFiles 加载到 HBase

我想使用HBase批量加载APILoadIncrementalHFiles.doBulkLoad(newPath(),hTable)将我的map-reduce作业的输出插入到HBase表中。我从我的映射器发出KeyValue数据类型,然后使用HFileOutputFormat使用其默认缩减器准备我的HFile。当我运行我的map-reduce作业时,它没有任何错误地完成并创建了输出文件,但是,最后一步-将HFiles插入HBase并没有发生。我的map-reduce完成后出现以下错误:13/09/0803:39:51WARNmapreduce.LoadIncrementalHFiles

hadoop - 用于故障转移的 Apache HBase 复制

ApacheHBase:Replication:Slave/Replication集群是否也用于故障转移处理而不是单独的数据恢复? 最佳答案 是的。HBaseReplication可以用作灾难恢复解决方案,并有助于提供更高的可用性或故障转移。我假设您已经完成了这个page其中谈到了HBase复制。 关于hadoop-用于故障转移的ApacheHBase复制,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.co

hadoop - HBase 和 HDFS 数据分隔符?

我将HBase数据导出到HDFS。我想将Sqoop导出HDFS到MySQL。但是在使用Sqoop导出时,需要我提供HDFS数据是如何分隔的。如何检查HBase表或HDFS数据中的分隔符?编辑1:我将HBase数据导出到HDFS使用bin/hadoopjar/path/to/hbase-0.20.3.jarexportyour_table/export/your_table 最佳答案 就HBase而言,不存在任何分隔符的问题。您的数据存储在HBase表的列中。要知道HDFS文件的分隔符,您可以:使用bin/hadoopfs-cat/p

hadoop - Hive 表导出优化

我希望优化或减少以下工作流程中的步骤数。我有一个名为sayLogs的Hive表。我应用一些自定义udf来获取转换后的日志。我将转换后的日志创建为一个表格,类似CREATETABLEtransform_logsROWFORMATDELIMITEDFIELDSTERMINATEDBY','LINESTERMINATEDBY'\n'ASSELECTnonsafehash(visitorid),nonsafehash(url),actionFROMlogs然后我做./bin/hadoopdfs-cat/user/hive/warehouse/transform_logs/\*>transfor