草庐IT

HBASE_CLASSPATH

全部标签

hadoop - 为什么导出的 HBase 表比原始表大 4 倍?

我需要在更新到新版本之前备份HBase表。我决定使用标准Export将表导出到hdfs工具,然后将其移动到本地文件系统。由于某种原因,导出的表比原始表大4倍:hdfsdfs-du-h1.4Tbackup-my-tablehdfsdfs-du-h/hbase/data/default/417Gmy-table可能是什么原因?它与压缩有某种关系吗?附言也许我制作备份的方式很重要。首先我做了一个snapshot来自目标表,然后是cloned它到一个复制表,然后从此复制表中删除不必要的列族(所以我预计结果大小会小2倍),然后我在这个复制表上运行导出工具。为future的访问者更新:这是压缩导出

hadoop - Protocol Buffer 错误 : Hbase createTable & put in java code(protobuf-LiteralByteString)

我正在使用kafka、sparkstream和hbase开发java应用程序。通过mavencleaninstall编译代码后,当我运行我的应用程序时遇到以下错误:hadoop版本:2.7.3HBase版本:hbase-0.98.24-hadoop2星火:2.1.0虽然我已经检查并应用了该站点中以前的答案,但我仍然遇到了问题。谢谢...`Exceptioninthread"main"org.apache.hadoop.hbase.DoNotRetryIOException:java.lang.NoClassDefFoundError:com/google/protobuf/Litera

hadoop - 将数据放入数据库时​​使用 hbase java 客户端时出现问题

我正在测试hbase。我正在使用一个没有hadoop的独立的。我使用版本hbase0.90.6代码工作正常,我升级到最新版本0.94.0它失败并在我尝试将数据放入表中时出现此异常。异常Exceptioninthread"main"org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException:Failed1action:DoNotRetryIOException:1time,serverswithissues:xxxx:36601,atorg.apache.hadoop.hbase.client.HConnecti

performance - hbase 'checkAndPut' 延迟是否高于简单的 'put'?

逻辑上……checkAndPut似乎需要更多时间。我对加载场景特别感兴趣,我们看到平均checkandput延迟为15ms(每行数据17KB)....将checkAndPut转换为简单的“PUT”显着减少平均延迟。对于99%的用例,当我们执行checkAndPut时,我们写入的行键甚至不存在。 最佳答案 是的,check和put延迟会比简单的put延迟更高。然而,高多少取决于memstore中的数据量以及block缓存中的数据量。checkAndMutate的工作方式如下:获取行锁等待所有未完成的交易被确认获取所需的电池使用提供的规

java - HBase多表扫描作业

我正在查看以下场景。我每天发送一个数据文件。我将其添加到HBase中,名称为file-yyyyMMdd格式。所以在一段时间内我有很多数据库,例如tempdb-20121220tempdb-20121221tempdb-20121222tempdb-20121223tempdb-20121224tempdb-20121225现在我想要做的是针对特定日期范围获取列表(如果表与该范围匹配),以便我可以创建索引。我正在使用hbase-0.90.6就我的研究而言,TableMapReduceUtil.initTableMapperJob只需要1个表名。TableMapReduceUtil.ini

hadoop - org.apache.hadoop.hbase.NotServingRegionException : Region is not online: -ROOT-, ,0 这个错误背后的原因是什么

感谢您对我的问题感兴趣:)每当我为hbaseshell中的任何表触发扫描、放置、创建等查询时,都会收到以下错误。和hbaseshell给出了表的结果列表和表的描述....所以你能帮我清除掉这个吗?还有你能告诉我结构-ROOT-,,0的含义吗关于我正在使用的版本HBase0.92.1-cdh4.1.2Hadoop2.0.0-cdh4.1.2错误:org.apache.hadoop.hbase.NotServingRegionException:org.apache.hadoop.hbase.NotServingRegionException:区域不在线:-ROOT-,,0

hadoop - 使用什么.. HDFS 上的 Impala 或 Hbase 上的 Impala 或只是 Hbase?

我正在处理概念验证任务。任务是使用Hadoop技术实现我们产品的一项功能。功能非常简单,我们有一个UI,可让您插入有关“网络问题”的详细信息。有关此类问题的所有详细信息都被捕获并插入到Oracle数据库中的表中。然后,我们处理此表中的数据并计算健康评分。我必须使用Hadoop而不是传统的Db所以我的问题是要做什么?HDFS上的黑斑羚?要么Hbase上的黑斑羚?要么Hbase?我正在使用clouderaVM进行POC实现。按照我的理解,Hbase是NoSQL分布式数据库,其实是HDFS之上的一层,提供javaAPI来访问数据。Impala是一种工具,它还提供JDBC访问以通过Hbase或

hadoop - hbase openTSDB 在一定时间后自动删除数据

我正在使用openTSDB以hbase作为存储系统来存储时间序列数据。我想知道是否有办法在一定时间后降低数据的分辨率?我所说的降低数据分辨率的意思是,最初说的是,我们的数据以1/秒的时间分辨率传入。大约6个月后,以相同的分辨率存储数据就没有意义了。我想将分辨率降低到1/min,即在那一分钟内删除其他59个数据点。hbase或openTSDB上是否有包可以执行此操作?谢谢你的帮助。 最佳答案 为了在一段时间后删除数据,HBase对表进行了设置,即TTL-timetolive.ColumnFamiliescansetaTTLlength

memory-management - HBase MemStore 和垃圾收集

我是HBase的新手,但我已经设置好HBase和Hadoop并了解一些相关知识。当我研究HBaseMemStore时,我对MemStore的全部了解是“MemStore是HBase放置必须写入或读取的数据的内存位置”。所以,这就是为什么我们想在何时何地阅读有关memstore的内容时,我们也会看到有关垃圾收集的讨论。现在我的问题是,memstore的唯一目的是在内存中保存可读和可写的数据吗?我们可以调整该内存的大小以获得hbase的快速回复吗?垃圾收集配置(收集器配置)会影响内存库吗?我认为应该是的。:) 最佳答案 关于HbaseM

hadoop - Hadoop 1.0.3 的 HBase 配置

我正在使用cygbin在widow-7中安装hadoop-1.0.3。现在我想安装HBase所以请建议我与hadoop1.0.3兼容的Hbase版本? 最佳答案 这是Hadoop和HBase版本之间的兼容性矩阵列表:上图:S-支持,X-不支持,NT-未测试此处提供更多信息:http://hadoop.apache.org/releases.html 关于hadoop-Hadoop1.0.3的HBase配置,我们在StackOverflow上找到一个类似的问题: