草庐IT

hbase-shell

全部标签

hadoop - 如何提高hbase中的扫描性能?

我正在使用hbase96进行分析。我通过定义startRow和endRow对行键范围应用单列值过滤器来从hbase获取数据。单个请求扫描1500000条记录需要5-6分钟,不处理并发请求。如何提高hbase扫描的性能?我们在亚马逊上有3个数据节点和2个主节点。下面是我的代码Scans=newScan();s.setCaching(10000);s.setStartRow(Bytes.toBytes(start_date));s.setStopRow(Bytes.toBytes(end_date));FilterListfilters=newFilterList(FilterList.O

python - 带有 HBase 的 flask

我正在为一个相当大的数据集设计一个API服务。数据目前存储在HDFS中,我们(BA)通常从Hive中查询它。最后,我们有几个表,我们想以API的形式暴露给客户,这些API将来也可能被用来备份前端应用程序。我是一名Python程序员,之前用过Flask。但是,构建可良好扩展的API服务的正确技术组合是什么?我听说有人提到“HBase+SolrCloud”将是解决方案。任何建议都会非常有帮助,如果认为这与编程无关,我会删除这篇文章。(我也对PaaS、AWS等IaaS、googlecloud持开放态度,如果他们实际上已经有了一个不错的包的话。) 最佳答案

hadoop - 根据时间戳从 Hive 访问 HBase 表数据

我通过提及默认版本10创建了一个HBasecreate'tablename',{NAME=>'cf',VERSIONS=>10}并插入两行(row1和row2)put'tablename','row1','cf:id','row1id'put'tablename','row1','cf:name','row1name'put'tablename','row2','cf:id','row2id'put'tablename','row2','cf:name','row2name'put'tablename','row2','cf:name','row2nameupdate'put'tabl

java - 找不到 Storm Hbase 配置

所以我设置了一个来自kafka的Storm喷口和一个写入HDFS的bolt。这一切都很好。我现在想添加一个写入Hbase的新bolt。出于某种原因,我的应用程序没有获取hbase配置内容,并且出现以下错误:java.lang.IllegalArgumentException:HBaseconfigurationnotfoundusingkey'null'atorg.apache.storm.hbase.bolt.AbstractHBaseBolt.prepare(AbstractHBaseBolt.java:58)~[storm-hbase-0.9.3.2.2.0.0-2041.jar

rest - 如何从 REST 客户端使用后缀 glob 从 HBase 检索多行?

我在名为test的HBase表中有以下行ROWCOLUMN+CELLrow1column=cf:a,timestamp=1429204170712,value=value1row2column=cf:b,timestamp=1429204196225,value=value2row3column=cf:c,timestamp=1429204213427,value=value3我正在尝试使用SuffixGlobbing检索行键匹配前缀row的所有行,如前所述here但为什么当我尝试http://localhost:8080/test/row*wherelocalhost:8080时,我

hadoop - 启动Hbase 1.0.0 报错

我刚刚通过brewinstallhbase安装了Hbase。编辑hbase-site.xmlhbase.rootdirfile:///usr/local/Cellar/hbase/databases/hbase-${user.name}/hbaseThedirectorysharedbyregionserversandintowhichHBasepersists.TheURLshouldbe'fully-qualified'toincludethefilesystemscheme.Forexample,tospecifytheHDFSdirectory'/hbase'wheretheH

hadoop - Hbase 0.92.1 : how to fix . 元数据。 table ,因为它丢失了一些 regioninfo

我的Hbase版本是0.92.1。我发现我的reduce作业有异常,例如:java.io.IOException:HRegionInfowasnulloremptyin.META.,row=keyvalues={single,20150411hxmyxy2013REF//336d5ebc5436534e61d16e63ddfca3277f92f92e8e693531c12a1dcc773f9ffa,1430298962344.ea72df9a3703e476b9f7e3368be47aa2./info:server/1430356486086/Put/vlen=28,single,20

java - HBase Java Api 卡在 put()

我一直在连接到我的HBase并使用我的Java应用程序正常执行命令。但是最近,一旦我以这种方式得到一张table:Tabletable=hbconnection.getTable(TableName.valueOf(DOC_TABLE_NAME));然后它会卡在这样的命令上:table.put(myput);我没有得到异常。应用程序不会终止。它只是卡在那里...当我在CLI中查看Hbase输出时,我注意到了这一部分:2015-10-2015:01:53,207INFO[ProcessThread(sid:0cport:-1):]server.PrepRequestProcessor:G

hadoop - Hmaster 未使用 hadoop 2.7.1 启动 hbase 1.1.2

我安装了hadoop2.7.1并且运行成功。我尝试通过引用此链接安装hbase1.1.2:https://archanaschangale.wordpress.com/2013/08/31/installing-pseudo-distributed-hbase-on-ubuntu/配置:hbase-env.sh:exportJAVA_HOME=/usr/lib/jvm/java-7-openjdk-i386exportHBASE_REGIONSERVERS=/usr/lib/hbase/hbase-1.1.2/conf/regionserversexportHBASE_MANAGES_

hadoop - 包含时间戳的 HBase rowkey

我想知道像下面这样的行键是否不好:用户名-时间戳这些行将从MapReduce作业中读取,并将使用java客户端API放置。此外,将使用STARTROW、ENDROW选择一个子集。一方面,这对我的用例来说似乎很方便,因为我可以扫描特定的时间间隔,并且行主要是MR作业的后续行,而另一方面,我读到避免长行键和热点是很好的。这个设计真的有问题吗?如何克服?我是HBase的新手,所以任何帮助都会很棒。 最佳答案 一般建议是避免单调增加行键。为此,一些软件工具在行键中包含所谓的“salt”,它可以跨区域散列键。可以在此处找到讨论:http://