草庐IT

hbase-parameter-tuning

全部标签

java - Hbase 多个过滤器无法正常运行

我正在为HBase使用Java客户端。我的rowkeys以timestamp-userid的形式给出。我有一个名为browser的列,其值为chrome、IE等。我需要扫描过去7000分钟内发生的所有行,其中使用的浏览器是InternetExplorer。我在下面添加了2个过滤器。一个用于检查timestamp(rowkey的前缀)是否在特定范围内(最后7000分钟),另一个用于检查code>browser列值等于IE。这是我的代码:publicstaticintcurrentUsersColumn(Tabletb,Stringcolname,Stringcolval)throwsIO

hadoop - hbase 区域服务器未与主服务器通信

我正在尝试让bhase集群正常工作。两个主服务器和两个区域服务器。我的问题是regionserver提示告诉主人他们已经起来了。:2016-07-0116:10:21,879WARN[regionserver/nbd-hadoop-data1/153.77.130.27:60020]**regionserver.HRegionServer:reportForDutyfailed;sleepingandthenretrying.**2016-07-0116:10:24,879INFO[regionserver/nbd-hadoop-data1/153.77.130.27:60020]**

java - 如何在HBase中实现分页?

我是Hbase的新手,我需要使用Java以Jersey和Hbase作为我的数据库来实现分页。我需要一些帮助,因为数据将分布在各个区域,如何使用Hbase实现分页。我想每页显示1000条记录。请告诉我如何在不使用任何过滤器的情况下实现这一目标。真是太感谢了。 最佳答案 您可以使用habse过滤器中的PageFilter来做到这一点。这将帮助您从Hbase获取分页行。有一篇关于分页的好文章,您可以引用执行此操作。http://www.techsquids.com/bd/pagination-with-hbase/

hadoop - 如何查询hbase json字符串值

我在hbase中保存如下数据列表,其中包含唯一ID和列族名称:我可以查询具有特定ID的地址列族,但我想查询像这样的json值其中homenumber=4我们能做到吗?任何示例都会有所帮助谢谢 最佳答案 您可以为此使用HBase过滤器。找出可能重复的问题ScanwithfilterusingHBaseshellScanHTablerowsforspecificcolumnvalueusingHBaseshell要开始使用HBase过滤器,请参阅http://hbase.apache.org/0.94/book/client.filte

hadoop - 在 HBase 中存储对象和它们之间的关系

我正在开始一个个人项目,该项目涉及存储对象的大型数据库以及对象之间的关系。我选择了Hadoop和HBase,因为它需要是多节点的,而且大部分数据都是稀疏的。来自RDBMS世界,我花了很多时间阅读HBase的面向列的结构,并且鉴于当前的文档,我无法弄清楚如何存储对象和对象之间的关系。对象本身可以与其他对象有无限数量的关系,以及无限数量的任意属性。关系也可以有属性。我的目标是拥有两个由“已婚”关系链接的“人”对象,并且已婚关系具有属性“日期”,我希望(将来)能够编写一个MapReduce来快速找到所有在x和y之间结婚的人。 最佳答案 有

hadoop - hbase伪分布式远程连接

我设置了HBase和HDFS,并在伪分布式模式下工作(在MacOSX上)。我还有一个简单的Java应用程序。它在本地使用时有效。我想让它远程工作。服务器隐藏在路由器后面,所有必要的端口都已转发。当我尝试远程连接时,我得到:...12/01/2523:21:15INFOzookeeper.ClientCnxn:Sessionestablishmentcompleteonserverremote.host.com/remoteip:53058,sessionid=0x13516f179a30005,negotiatedtimeout=4000012/01/2523:21:36INFOcli

hadoop - 在 MapReduce 中以最佳方式执行 HBase 查询

问题我们有多个HBase表:A、B、C。假设A是需要处理的记录队列。它可能包含平均2500万条记录。A有用户ID。B有每个用户执行的网站点击。B可能包含数十亿行。C有一些关于用户的次要信息。我们使用MapReduce作业对队列中的记录执行预测分析(成千上万的决策树)。问题的范围不包括实际的分析建模。问题MR作业正在对表B和C执行即席查询。例如,Map任务1执行查询以获得用户1的命中,Map任务2执行查询以获得用户2的命中。如果这些命中最终位于同一区域服务器,它会影响性能(竞争条件等)吗?是否有像ChainMapper(ChainReducer)这样的模式来拆分输入集,以便每个映射器都具

hadoop - 使用 Hive 将由双引号和逗号分隔的 CSV 文件导入 Hbase

我有一个用双引号和逗号分隔的CSV文件。它看起来有点像下面这样:"Textfromvendor","VendorName,Inc.","blahblah","Nextstring","",1234我正在尝试使用Hive将其导入到Hbase中的表中。我可以使用类似下面的内容在Hbase中从Hive创建一个表:hive>CREATETABLEexampletable1(tax_numbint,tax_namestring,tax_addrstring,tax_citystring,tax_statstring)STOREDBY'org.apache.hadoop.hive.hbase.HB

java - hbase dns 连接错误或可能是 ipv6

我一直在尝试运行涉及使用Hbase作为源和接收器的MapReduce作业。但是,当我尝试使用HBase客户端包0.92.1时,一切似乎都正常。但是当我使用0.94.2及以上版本时,它给出了以下DNS相关错误。我想使用较新的HBase客户端包,希望有人能告诉我哪里出了问题。谢谢我已经禁用了IPv6并且根本没有使用它。我不确定为什么它无法解析DNS客户端的字符串。Exceptioninthread"main"java.lang.NumberFormatException:Forinputstring:"4f8:0:a102::add:9999"atjava.lang.NumberForma

hadoop hbase cdh4 作业启动失败,出现权限错误

在CDH4生态系统中,我正在尝试将mapreduce作业输出到hbase表。由于某种原因,它在配置设置的addDependencyJars调用期间失败。据我所知,hbase配置没有选择hadoop配置(请参阅作业输出中的警告)。我提供了hdfs-site.xml、作业配置、带堆栈跟踪的作业输出和文件权限。任何有关如何进一步调试的帮助或见解将不胜感激。hdfs-site.xmldfs.permissions.enabledfalsedfs.permissions.superusergrouphadoopdfs.namenode.name.dir/var/hadoop/namenodedf