草庐IT

BigSQL-HBase

全部标签

hadoop - HBase & Mahout - 使用 HBase 作为 Mahout 的数据存储/源 - 分类

我正在从事一个大型文本分类项目,我们将文本数据(简单消息)存储在HBase中。我们有两个问题,首先我们想使用HBase作为Mahout分类器的来源,即拜耳和随机森林。其次,我们希望能够存储在HBase中生成的模型,而不是使用内存方法(InMemoryBayesDatastore),但是随着我们的集的增长,我们遇到了内存利用问题,并且想测试HBase作为可行的替代方案。似乎很少有资料将HBase与Mahout一起使用,以及是否可以将其用作潜在的数据源。我在具有InMemory数据存储的Java中使用Mahout0.6核心API。做一些挖掘我相信有一个HBaseBayers数据存储组件-o

hadoop - 使用HBase存储时序数据

我们正在尝试使用HBase来存储时间序列数据。我们目前拥有的模型将时间序列存储为单元格中的版本。这意味着该单元最终可能会存储数百万个版本,并且此时间序列上的查询将使用HBase中的Get类中可用的setTimeRange方法检索一系列版本。例如{"row1":{"columnFamily1":{"column1":{1:"1",2:"2"},"column2":{1:"1"}}}}这是在HBase中存储时序数据的合理模型吗?在多列(是否可以跨列查询)或行中存储数据的替代模型更合适? 最佳答案 我认为您不应该在此处使用版本控制来存储时

hadoop - HBase 中基于时间戳的扫描?

例如,对于hbase表'test_table',插入的值是:Row1-Val1=>tRow1-Val2=>t+3Row1-Val3=>t+5Row2-Val1=>tRow2-Val2=>t+3Row2-Val3=>t+5在扫描'test_table'时应该返回version=t+4Row1-Val1=>t+3Row2-Val2=>t+3我如何在HBase中实现基于时间戳的扫描(基于小于或等于时间戳的最新可用值)? 最佳答案 考虑这个表:hbase(main):009:0>create't1',{NAME=>'f1',VERSIONS

添加节点后 hadoop 和 hbase 重新平衡

我有一个关于负载均衡器的基本问题。我刚刚向我们的hadoop(2.3)集群添加了新节点,该集群也有hbasev0.98。在hadoop和hbase中添加并使所有节点在线后,hadooprebalancer对hbase有何影响?我是否需要在hadoop重新平衡后明确尝试重新平衡hbase?我的Hadoop集群完全被hbase占用了。设置balancer_switch=true,会不会自动rebalancehbase和hadoop?确保hadoop和hbase都重新平衡并正常工作的最佳方法是什么? 最佳答案 Hadoop(HDFS)平衡

hadoop - hbase 找不到现有表

我设置了一个hbase集群来存储来自opentsdb的数据。最近由于部分节点重启,hbase丢失了表“tsdb”。我仍然可以在hbase的主节点页面上显示它,但是当我单击它时,它会给我一个tableNotFoundExceptionorg.apache.hadoop.hbase.TableNotFoundException:tsdbatorg.apache.hadoop.hbase.client.HConnectionManager$HConnectionImplementation.locateRegionInMeta(HConnectionManager.java:952)ator

hadoop - HBase:复制是如何工作的?

我目前正在将HBase作为数据存储进行评估,但有一个问题没有得到解答:HBase在多个节点上存储同一对象的多个副本(也称为复制)。由于HBase具有所谓的强一致性(与最终一致性相反),它保证每个副本在读取时返回相同的值。根据我对HBase概念的理解,在读取值时,首先会向HBase主服务器查询提供数据的(必须有多个)RegionServer。然后我可以在没有主人发明的情况下发出读写请求。那么复制如何工作?HBase如何提供一致性?写操作在内部是如何工作的?写操作阻塞,直到所有副本都被写入(=>同步复制)。如果是,谁管理此传输?HDFS如何进入游戏?我已经阅读了BigTable-Paper

hadoop - Hadoop 中的 HBase 和 ZooKeeper 角色?

我已经在我的Ubuntu机器上安装了Hadoop单节点集群,并且能够运行NameNode、datanode等。现在我需要安装HBase和Zookeeper。但我真的不知道它们是什么。伙计们谁能给我简要介绍一下这些工具。谢谢 最佳答案 首先,我强烈建议您浏览这些项目的官方页面。去here用于HBase和here对于Zookeeper。HBase是一种在现有Hadoop集群(HDFS)之上运行的NoSQL数据存储。它为您提供随机、实时读/写等功能,而HDFS作为FS所缺乏的。由于它是一个NoSQL数据存储,因此它不遵循SQL约定和术语。

hadoop - Hbase-hadoop集成中datanode、regionserver的作用

根据我的理解,行被插入到HBase表中,并作为区域存储在不同的区域服务器中。因此,区域服务器存储数据与Hadoop类似,数据存储在hadoop集群中的数据节点中。假设我在Hadoop1.1.1之上配置了HBase0.90.6,如​​下所示2个节点-主从主节点充当,Hadoop-Namenode、SecondaryNamenode、作业跟踪器、数据节点、任务跟踪器HBase-Master、RegionServer和zookeeper。从节点充当,Hadoop数据节点和任务跟踪器HBase区域服务器根据我的说法,如果表数据存储在区域服务器中;那么数据节点和区域服务器的作用是什么?

hadoop - Hbase/Hadoop 查询帮助

我正在与一个friend合作一个项目,该项目将利用Hbase来存储它的数据。有什么好的查询示例吗?我似乎正在编写大量Java代码来遍历RowResult的列表,而在SQL领域,我可以编写一个简单的查询。我错过了什么吗?还是Hbase遗漏了什么? 最佳答案 我认为您和我们中的许多人一样,错误地将bigtable和HBase视为另一个RDBMS,而实际上它是一个面向列的存储模型,旨在有效地存储和检索大型稀疏数据集。例如,这意味着在理想情况下在单行中存储多对一关系。您的查询应该返回很少的行,但包含(可能)很多数据点。也许如果您告诉我们更多

HBase 开发:使用Java操作HBase 第1关:创建表

为了完成本关任务,你需要掌握:1.如何使用Java连接HBase数据库,2.如何使用Java代码在HBase中创建表。如何使用Java连接HBase数据库Java连接HBase需要两个类:HBaseConfigurationConnectionFactoryHBaseConfiguration要连接HBase我们首先需要创建Configuration对象,这个对象我们需要通过HBaseConfiguration(HBase配置)对象来进行创建,HBaseConfiguration看名字我们就能猜到它的用途:读取指定路径下hbase-site.xml和hbase-default.xml的配置信息