草庐IT

HBASE_CLASSPATH

全部标签

hadoop - 此时此刻,确保 HBase 表中的行数增加的最有效方法是什么?

我想确保此刻数据存储在HBase表中。我不需要确切的行数。为此,我在HBaseshell中执行了两次count'table_name'命令:hbase(main):001:0>count'test_table',100000...558549row(s)in360.1440secondshbase(main):001:0>count'test_table',100000...558623row(s)in354.0270seconds但是当行数很大时(>200,000),它会花费很长时间。最有效的方法是什么? 最佳答案 尝试使用具有更

hadoop - 使用 importtsv 将文本文件导入 HBase

问题:我正在尝试使用this将数据从文本文件导入HBase数据库文档中的示例。配置HBase版本:hbase-0.94.4。我的安装是独立(非分布式或伪分布式)。重现错误最初它在HDFS上创建StoreFiles,并创建一个名为datatsv的空表,使用:HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbaseclasspath`${HADOOP_HOME}/bin/hadoop\jar/usr/local/hbase/hbase-0.94.4.jarimporttsv\-Dimporttsv.columns=HBASE_ROW_KEY,d:c1,d:c2\-

java - 如何将 Hazelcast 与 Hbase 连接?

我同时拥有Hazelcast和HBase。我的HBase中有数百万个条目。如何从Hazelcast建立与HBase的连接,以便从Hazelcast访问这些条目。如果那不可能,我如何在Hazelcast中输入这些记录?提前致谢! 最佳答案 这里的博客解释了如何集成HBase和Hazelcast:http://blog.codepoly.com/distribute-with-hazelcast-persist-into-hbase关键是你将一些数据存储在Hazelcast中(最近或经常使用的数据),即使用Hazelcast作为缓存。查

performance - HBase 客户端写入性能差

我在我的应用程序服务器(-cumweb服务器)中使用HBase客户端和HBase使用CDH3u4(HBase-0.90)的6个节点的集群设置。HBase/Hadoop服务在集群上运行的是:NODENAME--ROLENode1--NameNodeNode2--RegionServer,SecondaryNameNode,DataNode,MasterNode3--RegionServer,DataNode,ZookeeperNode4--RegionServer,DataNode,ZookeeperNode5--RegionServer,DataNode,ZookeeperNode6-

java - HBase 映射减少 : write into HBase in Reducer

我正在学习HBase。我知道如何使用HadoopMapReduce编写Java程序并将输出写入HDFS;但现在我想将相同的输出写入HBase,而不是HDFS。它应该有一些类似的代码,就像我之前在HDFS中所做的那样:context.write(key,value);谁能给我一个例子来实现这个? 最佳答案 这是一种方法:publicstaticclassMyMapperextendsTableMapper{publicvoidmap(ImmutableBytesWritablerow,Resultvalue,Contextcontex

hadoop - hbase 中的数据大小增加

我正在尝试使用sqoop将数据从MySQL导入到HBase。MySQL表中大约有900万条记录,大小接近1.2GB。hadoop集群的复制因子为3。以下是我面临的问题:导入hbase后的数据大小超过20GB!!!理想情况下应该接近,比如5GB(1.2G*3+一些开销)HBase表的VERSIONS定义为1。如果我导入相同的再次来自MySQL的表,/hbase/中的文件大小增加(几乎翻倍)。尽管HBase表中的行数保持不变。这看起来很奇怪,因为我在HBase,因此文件大小应该保持不变,类似于行计数值。据我所知,如果我导入相同的行集,则第二种情况下的文件大小不应增加,因为为每个条目维护的最

java - 哪个 jar 文件包含 Hbase 的 RowCounter 类

我已经无计可施了。我找不到哪个jar文件包含这两个类:importorg.apache.hadoop.hbase.mapreduce.RowCounter.RowCounterMapper;importorg.junit.experimental.categories.Category;我试过:在findjar.com上查找用了我的GoogleFu向计算机之神祈祷通过maven(用于RowCounter)手动尝试了几个来自cloudera的jar。Eclipse仍然说那些导入行没有解析。我如何找到包含这些类或我的程序编译所需的任何类的jar文件?提前致谢。我准备好用头撞墙了。

hadoop - HBase:我需要jobtracker/tasktracker吗

如果我不执行任何map/reduce作业,是否仍需要运行JobTracker/TaskTrackers以获取某些HBase内部依赖项? 最佳答案 不,您不需要同时运行HBase。提示:总有一些脚本可以启动HDFS,例如bin/start-dfs.sh。 关于hadoop-HBase:我需要jobtracker/tasktracker吗,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions

hadoop - Hbase 如何写入它的数据以及在哪里

我是Hbase新手,只是想了解一下Hbase的写操作。如果多个客户端在同一个表中写入,那么Hbase如何保持对物理文件的顺序写入。Hbase在哪里存储其数据(我认为在HDFS中)?我们可以将Hbase数据存储在HDFS之外吗? 最佳答案 HBase首先将数据写入memstore,当它已满或根据请求将其刷新到磁盘HBase还将数据写入预写日志(WAL)以防止数据丢失(如果需要,可以将其关闭).memstore数据被刷新到存储在HDFS中的HFiles中。HBase需要HDFS来提供数据可用性(通过HDFS复制)。HBase无法将数据存

java - 从 Hbase 导出数据时出现数字格式异常

我打算通过在hbase中提及starttime和endtime来导出表。由于我是新手,所以我假设开始时间和结束时间是与行一起插入的时间戳。我的表包括:ROWCOLUMN+CELL1column=d:A,timestamp=1439284609013,value=HHHH1column=d:B,timestamp=1439284620216,value=HHHH1112column=d:A,timestamp=1439284637133,value=HHHH2column=d:B,timestamp=1439284641872,value=HHHH1113column=d:A,times