草庐IT

hbase-unsecure

全部标签

hadoop - HBase 中的数据读取是如何发生的?

我们知道HBase部署在Hadoop和HDFS之上。此外,我们知道当我们想要从HDFS读取文件(或记录)时,使用HDFSCLI需要花费大量时间。但即使HBase使用HDFS,它也能够在几毫秒内读取key。这是怎么发生的? 最佳答案 我认为原因包括:数据被拆分到不同的区域服务器。客户端可以得到META表中的区域服务器,并直接与HBase区域服务器通信。区域服务器与HDFS数据节点并置,这使得数据局部性(将数据放在需要的地方)区域服务器提供的数据。一个HFile包含一个多层索引,它允许HBase查找无需读取整个文件即可访问数据。HBas

hadoop - 从 Hbase 同步数据到 Hive

我们正在开展一个项目,我们使用HBase作为操作数据存储;所有数据都实时进入hbase。并且每隔2小时,Hbase中的数据需要同步到Hive中。这是为了使分析查询能够在最新数据之上运行。从Hbase同步数据到Hive:对于仅插入/更新的场景,我可以使用hbase提供的时间戳列来了解插入/更新的记录。对于“DELETE”场景,我正在努力寻找正确的方法。HBaseScanAPI是否提供任何选项来做到这一点?或者我应该使用ApachePhoenix等任何SQL选项来做同样的事情吗? 最佳答案 这是HBase引用指南第KeepDeleted

hadoop - 如何使用 Hbase rest API 将数据从 IBM db2 导入到 Hbase

实际上我们的需求是使用HbaserestAPI将数据从IBMdb2导入到hbase。任何人都可以向我提供详细信息或步骤。提前致谢。 最佳答案 你可以试试sqoop-hbaseimport 关于hadoop-如何使用HbaserestAPI将数据从IBMdb2导入到Hbase,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/57292350/

hadoop - 在hbase中导出表

开始导出作业后,即:hadoopjar/path/to/hbase-0.20.3.jarexportyour_table/export/your_table是否包含记录的所有版本?或者您必须明确指定,即hadoopjar/path/to/hbase-0.20.3.jarexportyour_table/export/your_table3以这个语法为例:Export[[[]]] 最佳答案 默认情况下-仅导出最新版本的记录。您可以选择指定要导出的最大版本数以及时间范围。看这里http://javasourcecode.org/html

hadoop - 将 PIG 中的一些字段存储到 Hbase 中

我正在尝试提取字符串的某些部分并将其存储到列中的hbase。文件内容:msgType1PersonxyzhasopenedInternet:www.google.comfromIP:192.123.123.123forduration00:15:00msgType2PersonxyzdeniedforopeningInternet:202.x.x.xfromIP:192.123.123.123reason:unautheticatedmsgType1PersonxyzhasopenedInternet:202.x.x.xfromIP:192.123.123.123forduration

hadoop - HBase 和 Hadoop

根据我目前阅读的内容,HBase需要安装Hadoop。看起来HBase可以设置为使用现有的Hadoop集群(与其他一些用户共享)还是可以设置为使用专用的Hadoop集群?我想后者会是一个更安全的配置,但我想知道是否有人对前者有任何经验(但我不太确定我对HBase设置的理解是否正确)。 最佳答案 我知道Facebook和其他大型组织出于性能原因将其HBase集群(实时访问)与其Hadoop集群(批处理分析)分开。集群上的大型MapReduce作业有能力影响实时接口(interface)的性能,这可能会产生问题。在较小的组织或HBase

hadoop - 如何使用 Pig 和 HBaseStorage 存储到 HBase

在HBaseshell中,我通过以下方式创建了我的表:create'pig_table','cf'在Pig中,这是我希望存储到pig_table中的别名的结果:DUMPB;生成包含6个字段的元组:(D1|30|2014-01-0113:00,D1,30,7.0,2014-01-0113:00,DEF)(D1|30|2014-01-0122:00,D1,30,1.0,2014-01-0122:00,JKL)(D10|20|2014-01-0111:00,D10,20,4.0,2014-01-0111:00,PQR)...第一个字段是第二个、第三个和第五个字段的串联,将用作HBaserow

hadoop - 来自两个 HBase 表的 MapReduce

我对Hadoop和HBase概念还很陌生。如果我的问题的答案过于明显,请原谅我。我需要从两个HBase表中获取销售报告。我试图在这里展示我正在处理的问题的最简化形式。有两个表,Products和Sales。产品表ProductCodeProductName----------------------APLAppleBANBananaMNGMangoORGOrange销售表ProductCodeQuantity-------------------MNG100BAN8MNG3APL24APL57BAN33ORG40ORG15我需要的那种减少输出:报告ProductNameTotalSal

hadoop - 如何将 apache Nutch 2.x 连接到远程 HBase 集群?

我有两台机器。一台机器伪分布式运行HBase0.92.2,另一台机器使用Nutch2.x爬虫。如何配置这两台机器,使一台HBase-0.92.2作为后端存储,另一台Nutch-2.x作为爬虫? 最佳答案 我终于做到了。我很容易做到。我在这里分享我的经验。也许它可以帮助某人。1-修改hbase-site.xml的配置文件为伪分布式模式。2-最重要的事情:在hbase机器上,像这样用你的真实网络ip替换/etc/hosts中的localhostip10.11.22.189主机本地主机hbase机器的ip=10.11.22.189(注意:

hadoop - 集成 Hbase 和 Hive : Register Hbase table

我正在使用包含以下版本的Hbase和Hive的HortonworksSandbox2.0ComponentVersion------------------------ApacheHadoop2.2.0ApacheHive0.12.0ApacheHBase0.96.0ApacheZooKeeper3.4.5...和我正在尝试使用以下查询将我的hbase表注册到配置单元中CREATETABLEIFNOTEXISTSDocument_Table_Hive(keySTRING,authorSTRING,categorySTRING)STOREDBY‘org.apache.hadoop.hiv