hbase-unsecure

hadoop - HBase 表设计 - 高窄与扁平宽的方法

我必须每月在HBase表中存储有关实体的信息。我想使用mapreduce逻辑处理迄今为止实体可用的所有月份详细信息。我很困惑是选择高窄设计还是扁平宽设计HBase表。使用平面宽度方法，实体ID将保留为行键，月份ID将保留为列限定符，详细信息将保留为限定符值。在HBase-mapreduce中，我可以在映射和处理中获取实体的所有详细信息。高-窄方法将行键存储为实体ID和月份的组合。此外，详细信息将存储在单独的列中。在HBase-mapreduce中，我必须在map中获取entiy的详细信息，并在reducer中聚合所有月份。哪种方法更好并产生更好的性能？提前致谢。

nosql - 单机适合Hadoop和HBase学习吗？

我对使用Hadoop和HBase编写Web服务很感兴趣(我发现我很喜欢与BigData相关的主题)，但我想问你一件事。如果我将它安装在我的PC上，这是否足以学习这些技术的一些基础知识？还是会被限制甚至不能用？最佳答案是的，您可以在普通PC上使用它。它可以作为伪分布式安装在一台机器上，它将多个“服务器”作为单独的进程。请注意，Apache表示Windows安装分布式操作尚未经过充分测试，但如果您正在尝试学习这些技术，那应该不是问题。关于nosql-单机适合Hadoop和HBase学习

hadoop - 为什么导出的 HBase 表比原始表大 4 倍？

我需要在更新到新版本之前备份HBase表。我决定使用标准Export将表导出到hdfs工具，然后将其移动到本地文件系统。由于某种原因，导出的表比原始表大4倍:hdfsdfs-du-h1.4Tbackup-my-tablehdfsdfs-du-h/hbase/data/default/417Gmy-table可能是什么原因？它与压缩有某种关系吗？附言也许我制作备份的方式很重要。首先我做了一个snapshot来自目标表，然后是cloned它到一个复制表，然后从此复制表中删除不必要的列族(所以我预计结果大小会小2倍)，然后我在这个复制表上运行导出工具。为future的访问者更新:这是压缩导出

hadoop - Protocol Buffer 错误 : Hbase createTable & put in java code(protobuf-LiteralByteString)

我正在使用kafka、sparkstream和hbase开发java应用程序。通过mavencleaninstall编译代码后，当我运行我的应用程序时遇到以下错误:hadoop版本:2.7.3HBase版本:hbase-0.98.24-hadoop2星火:2.1.0虽然我已经检查并应用了该站点中以前的答案，但我仍然遇到了问题。谢谢...`Exceptioninthread"main"org.apache.hadoop.hbase.DoNotRetryIOException:java.lang.NoClassDefFoundError:com/google/protobuf/Litera

hadoop - 将数据放入数据库时使用 hbase java 客户端时出现问题

我正在测试hbase。我正在使用一个没有hadoop的独立的。我使用版本hbase0.90.6代码工作正常，我升级到最新版本0.94.0它失败并在我尝试将数据放入表中时出现此异常。异常Exceptioninthread"main"org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException:Failed1action:DoNotRetryIOException:1time,serverswithissues:xxxx:36601,atorg.apache.hadoop.hbase.client.HConnecti

performance - hbase 'checkAndPut' 延迟是否高于简单的 'put'？

逻辑上……checkAndPut似乎需要更多时间。我对加载场景特别感兴趣，我们看到平均checkandput延迟为15ms(每行数据17KB)....将checkAndPut转换为简单的“PUT”显着减少平均延迟。对于99%的用例，当我们执行checkAndPut时，我们写入的行键甚至不存在。最佳答案是的，check和put延迟会比简单的put延迟更高。然而，高多少取决于memstore中的数据量以及block缓存中的数据量。checkAndMutate的工作方式如下:获取行锁等待所有未完成的交易被确认获取所需的电池使用提供的规

java - HBase多表扫描作业

我正在查看以下场景。我每天发送一个数据文件。我将其添加到HBase中，名称为file-yyyyMMdd格式。所以在一段时间内我有很多数据库，例如tempdb-20121220tempdb-20121221tempdb-20121222tempdb-20121223tempdb-20121224tempdb-20121225现在我想要做的是针对特定日期范围获取列表(如果表与该范围匹配)，以便我可以创建索引。我正在使用hbase-0.90.6就我的研究而言，TableMapReduceUtil.initTableMapperJob只需要1个表名。TableMapReduceUtil.ini

hadoop - org.apache.hadoop.hbase.NotServingRegionException : Region is not online: -ROOT-, ,0 这个错误背后的原因是什么

感谢您对我的问题感兴趣:)每当我为hbaseshell中的任何表触发扫描、放置、创建等查询时，都会收到以下错误。和hbaseshell给出了表的结果列表和表的描述....所以你能帮我清除掉这个吗？还有你能告诉我结构-ROOT-,,0的含义吗关于我正在使用的版本HBase0.92.1-cdh4.1.2Hadoop2.0.0-cdh4.1.2错误:org.apache.hadoop.hbase.NotServingRegionException:org.apache.hadoop.hbase.NotServingRegionException:区域不在线:-ROOT-,,0

hadoop - 使用什么.. HDFS 上的 Impala 或 Hbase 上的 Impala 或只是 Hbase？

我正在处理概念验证任务。任务是使用Hadoop技术实现我们产品的一项功能。功能非常简单，我们有一个UI，可让您插入有关“网络问题”的详细信息。有关此类问题的所有详细信息都被捕获并插入到Oracle数据库中的表中。然后，我们处理此表中的数据并计算健康评分。我必须使用Hadoop而不是传统的Db所以我的问题是要做什么？HDFS上的黑斑羚？要么Hbase上的黑斑羚？要么Hbase?我正在使用clouderaVM进行POC实现。按照我的理解，Hbase是NoSQL分布式数据库，其实是HDFS之上的一层，提供javaAPI来访问数据。Impala是一种工具，它还提供JDBC访问以通过Hbase或

hadoop - hbase openTSDB 在一定时间后自动删除数据

我正在使用openTSDB以hbase作为存储系统来存储时间序列数据。我想知道是否有办法在一定时间后降低数据的分辨率？我所说的降低数据分辨率的意思是，最初说的是，我们的数据以1/秒的时间分辨率传入。大约6个月后，以相同的分辨率存储数据就没有意义了。我想将分辨率降低到1/min，即在那一分钟内删除其他59个数据点。hbase或openTSDB上是否有包可以执行此操作？谢谢你的帮助。最佳答案为了在一段时间后删除数据，HBase对表进行了设置，即TTL-timetolive.ColumnFamiliescansetaTTLlength