hbase-unsecure

hadoop - 节点/hbase 不在 ZooKeeper 中

我是Hadoop的新手，尝试以伪分布式模式安装Hbase，版本为hbase-0.98.10.1-hadoop1-bin，Hadoop2.5.2。我无法添加表格。当我尝试创建表时，以下错误继续存在:client.HConnectionManager$HConnectionImplementation:Thenode/hbaseisnotinZooKeeper.Itshouldhavebeenwrittenbythemaster.Checkthevalueconfiguredin'zookeeper.znode.parent'.Therecouldbeamismatchwiththeone

Hadoop、Hive、Pig、HBase、Cassandra——什么时候用什么？

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭8年前。Improvethisquestion首先，我对大数据和Hadoop世界还比较陌生，而且我刚刚开始对Hortonworks沙箱(到目前为止的Pig和Hive)进行一些试验。我想知道在什么情况下可以使用上面提到的Hadoop、Hive、Pig、HBase和Cassandra这些工具？在我的沙箱环境中，只有一个9MB的文件，Hive和Pig的响应时间为几秒到几分钟。这在某些情况下显然不可用，例如Web应用程序(除非是其他情况，例如

mdash Cassandra section class 沙箱 hadoop hive apache-pig

database-design - Hadoop Hbase : Spreading column families across tables or not

Hbase的文档说的很清楚，相似的列应该归为列族，因为物理存储是由列族来完成的。但是将两个列族放在同一个表中，而不是每个列组都有单独的表，这意味着什么？是否存在以这种方式“分区”表更有意义的特定情况，以及一个“宽”表效果更好的情况？单独的表应该导致单独的“行区域”，这在一些列族(作为一个整体)非常稀疏时可能是有益的。相反，什么时候将列系列聚集在一起比较有利？最佳答案您已经了解了列族的概念:基本上，它只是提示HBase将这些项目存储和复制在一起以便更快地访问。如果您将两个列族放在同一个表中，并且总是有不同的键来访问它们，那么这实际

database-design Spreading section 的浏览量 hadoop hbase

hadoop - HBase regionserver 被中止，之后再也无法启动

我使用OpenTSDBoverHBase(虚拟盒子上的伪分布式Hadoop)以非常高的负载(~50,000条记录/秒)发送数据。系统正常工作了一段时间，但突然崩溃了。我终止了OpenTSDB和HBase。不幸的是，我再也无法提起它们。每次我尝试运行HBase和OpenTSDB时，它们都会显示错误日志。我在这里列出日志:区域服务器:2015-07-0118:15:30,752INFO[sync.3]wal.FSHLog:Slowsynccost:112ms,currentpipeline:[192.168.56.101:50010]2015-07-0118:15:41,277INFO[r

regionserver hadoop hbase apache opentsdb

hadoop - 如何复制现有的 hbase 表

我有一个Hbase表X，我想创建它的精确副本并将其命名为Y。有人可以告诉我这是怎么实现的吗？谢谢最佳答案假设你想在同一个集群上复制表，你可以使用HBase快照在hbaseshell中，您可以snapshot'sourceTable','sourceTable-snapshot'clone_snapshot'sourceTable-snapshot','newTable' 关于hadoop-如何复制现有的hbase表，我们在StackOverflow上找到一个类似的问题：

hadoop hbase section snapshot sourceTable cloud

xml - HBase REST 过滤器 ( SingleColumnValueFilter )

我不知道如何在HBaseREST接口(interface)(HBase0.90.4-cdh3u3)中使用过滤器。该文档只为我提供了“字符串”的模式定义，但没有说明如何使用它。所以，我可以这样做:curl-v-H'Content-Type:text/xml'-d'''http://hbasegw:8080/table/scanner'然后用检索curl-s-H"Content-Type:text/xml"http://hbasegw:8080/table/scanner/13293426893883128482b|tidy-i-q-xml但现在我想使用SingleColumnValueF

SingleColumnValueFilter HBase 34 code xml rest hadoop stargate

hadoop - 为什么 HBase 是比使用 Hadoop 的 Cassandra 更好的选择？

为什么使用HBase比使用Cassandra和Hadoop更好？谁能详细解释一下？谢谢最佳答案我不认为任何一个比其他的更好，它不仅仅是一个或另一个。这些是非常不同的系统，每个都有自己的优点和缺点，所以这真的取决于你的用例。它们绝对可以在同一基础设施中相互补充使用。为了更好地解释差异，我想借用Cassandra:theDefinitiveGuide的图片，在那里他们讨论了CAP定理。他们说的基本上是任何分布式系统，你都得在一致性、可用性和分区容忍度之间找到一个平衡点，只能实事求是满足这些属性中的2个。从中可以看出:Cassandr

Cassandra hadoop strong section nosql hbase cap-theorem

hadoop - Hbase快速统计行数

现在我像这样在ResultScanner上实现行计数for(Resultrs=scanner.next();rs!=null;rs=scanner.next()){number++;}如果数据达到百万次计算量大，想实时计算不想用Mapreduce如何快速统计行数。最佳答案在HBase中使用RowCounterRowCounter是一个mapreduce作业，用于计算表的所有行。这是一个很好的实用程序，可用作健全性检查，以确保HBase在担心元数据不一致时可以读取表的所有block。它将在单个进程中运行所有mapreduce，但如

hadoop Hbase section RowCounter code bigdata

hadoop - Hive 与 HBase 相比如何？

我有兴趣了解最近发布的(http://mirror.facebook.com/facebook/hive/hadoop-0.17/)Hive与HBase在性能方面的比较。Hive使用的类似SQL的接口(interface)比我们已经实现的HBaseAPI更可取。最佳答案很难找到关于Hive的很多信息，但我找到了这个snippet在严重支持HBase的Hive站点上(粗体添加):Hive基于批处理系统Hadoop。因此，该系统不会也不能保证查询的低延迟。这里的范例是严格提交作业并在作业完成时收到通知，而不是实时查询。因此，不应将它

hadoop HBase section Hive strong

nosql - 大规模数据处理 Hbase vs Cassandra

按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visitthehelpcenter指导。关闭10年前。在研究了大规模数据存储解决方案之后，我差一点就登陆了Cassandra。但普遍认为Hbase是大规模数据处理和分析的更好解决方案。虽然两者都是相同的键/值存储并且都是/可以运行(最近是Cassandra)Hadoop层，但是当需要对大数据进行处理/分析时，是什么让Hadoop成为更好的选择。我还在http://ria101.wordpress.com/2

大规 Cassandra section notice nosql hadoop hbase data-processing

147 148 149150151 152 153