草庐IT

hbase-unsecure

全部标签

hadoop - Hbase 区域在不应该的时候 split

我们有一些表配置了DelimitedKeyPrefixRegionSplitPolicy(继承自IncreasingToUpperBoundRegionSplitPolicy),内存存储刷新大小为128M,表MAX_FILESIZE约为20GB。根据我们的计算,在区域大小达到20GB(4^3*256M=16GB)之前,每个服务器不应获得超过5个区域,但每个区域服务器有7-15个区域。我们之前将它们组合起来以获得正确的数字,但随后它们又分开了。我们使用的是hbase0.98.4,表描述显示{TABLE_ATTRIBUTES=>{MAX_FILESIZE=>'21474836480'...

hadoop - HBase 中的 org.apache.hadoop.hbase.io.ImmutableBytesWritable 异常

我们尝试测试以下用于访问HBase表(Spark-1.3.1、HBase-1.1.1、Hadoop-2.7.0)的示例代码:importsysfrompysparkimportSparkContextif__name__=="__main__":iflen(sys.argv)!=3:print>>sys.stderr,"""Usage:hbase_inputformatRunwithexamplejar:./bin/spark-submit--driver-class-path/path/to/example/jar\/path/to/examples/hbase_inputforma

java - Hbase 多个过滤器无法正常运行

我正在为HBase使用Java客户端。我的rowkeys以timestamp-userid的形式给出。我有一个名为browser的列,其值为chrome、IE等。我需要扫描过去7000分钟内发生的所有行,其中使用的浏览器是InternetExplorer。我在下面添加了2个过滤器。一个用于检查timestamp(rowkey的前缀)是否在特定范围内(最后7000分钟),另一个用于检查code>browser列值等于IE。这是我的代码:publicstaticintcurrentUsersColumn(Tabletb,Stringcolname,Stringcolval)throwsIO

hadoop - hbase 区域服务器未与主服务器通信

我正在尝试让bhase集群正常工作。两个主服务器和两个区域服务器。我的问题是regionserver提示告诉主人他们已经起来了。:2016-07-0116:10:21,879WARN[regionserver/nbd-hadoop-data1/153.77.130.27:60020]**regionserver.HRegionServer:reportForDutyfailed;sleepingandthenretrying.**2016-07-0116:10:24,879INFO[regionserver/nbd-hadoop-data1/153.77.130.27:60020]**

java - 如何在HBase中实现分页?

我是Hbase的新手,我需要使用Java以Jersey和Hbase作为我的数据库来实现分页。我需要一些帮助,因为数据将分布在各个区域,如何使用Hbase实现分页。我想每页显示1000条记录。请告诉我如何在不使用任何过滤器的情况下实现这一目标。真是太感谢了。 最佳答案 您可以使用habse过滤器中的PageFilter来做到这一点。这将帮助您从Hbase获取分页行。有一篇关于分页的好文章,您可以引用执行此操作。http://www.techsquids.com/bd/pagination-with-hbase/

hadoop - 如何查询hbase json字符串值

我在hbase中保存如下数据列表,其中包含唯一ID和列族名称:我可以查询具有特定ID的地址列族,但我想查询像这样的json值其中homenumber=4我们能做到吗?任何示例都会有所帮助谢谢 最佳答案 您可以为此使用HBase过滤器。找出可能重复的问题ScanwithfilterusingHBaseshellScanHTablerowsforspecificcolumnvalueusingHBaseshell要开始使用HBase过滤器,请参阅http://hbase.apache.org/0.94/book/client.filte

hadoop - 在 HBase 中存储对象和它们之间的关系

我正在开始一个个人项目,该项目涉及存储对象的大型数据库以及对象之间的关系。我选择了Hadoop和HBase,因为它需要是多节点的,而且大部分数据都是稀疏的。来自RDBMS世界,我花了很多时间阅读HBase的面向列的结构,并且鉴于当前的文档,我无法弄清楚如何存储对象和对象之间的关系。对象本身可以与其他对象有无限数量的关系,以及无限数量的任意属性。关系也可以有属性。我的目标是拥有两个由“已婚”关系链接的“人”对象,并且已婚关系具有属性“日期”,我希望(将来)能够编写一个MapReduce来快速找到所有在x和y之间结婚的人。 最佳答案 有

hadoop - hbase伪分布式远程连接

我设置了HBase和HDFS,并在伪分布式模式下工作(在MacOSX上)。我还有一个简单的Java应用程序。它在本地使用时有效。我想让它远程工作。服务器隐藏在路由器后面,所有必要的端口都已转发。当我尝试远程连接时,我得到:...12/01/2523:21:15INFOzookeeper.ClientCnxn:Sessionestablishmentcompleteonserverremote.host.com/remoteip:53058,sessionid=0x13516f179a30005,negotiatedtimeout=4000012/01/2523:21:36INFOcli

hadoop - 在 MapReduce 中以最佳方式执行 HBase 查询

问题我们有多个HBase表:A、B、C。假设A是需要处理的记录队列。它可能包含平均2500万条记录。A有用户ID。B有每个用户执行的网站点击。B可能包含数十亿行。C有一些关于用户的次要信息。我们使用MapReduce作业对队列中的记录执行预测分析(成千上万的决策树)。问题的范围不包括实际的分析建模。问题MR作业正在对表B和C执行即席查询。例如,Map任务1执行查询以获得用户1的命中,Map任务2执行查询以获得用户2的命中。如果这些命中最终位于同一区域服务器,它会影响性能(竞争条件等)吗?是否有像ChainMapper(ChainReducer)这样的模式来拆分输入集,以便每个映射器都具

hadoop - 使用 Hive 将由双引号和逗号分隔的 CSV 文件导入 Hbase

我有一个用双引号和逗号分隔的CSV文件。它看起来有点像下面这样:"Textfromvendor","VendorName,Inc.","blahblah","Nextstring","",1234我正在尝试使用Hive将其导入到Hbase中的表中。我可以使用类似下面的内容在Hbase中从Hive创建一个表:hive>CREATETABLEexampletable1(tax_numbint,tax_namestring,tax_addrstring,tax_citystring,tax_statstring)STOREDBY'org.apache.hadoop.hive.hbase.HB