最近我一直在研究Ambari。但是在我安装成功之后,除了HBase之外,一切都运行良好。只有HBasemaster是好的,其他RegionServers都收到告警:Connectionfailed:[Errno111]Connectionrefusedtoserver1.hadoop:16030.(thedomainnamediffersfrommachines.)有人遇到同样的问题吗? 最佳答案 我已经解决了这个问题。我在我的区域服务器的/var/log/hbase/*.log中读取了日志文件,发现它的时钟与主时钟不同步。所以我让
我创建了一个这样的Hbase表,create'student','personal'我已经像这样将一些数据放入其中。ROWCOLUMN+CELL1column=personal:age,timestamp=1456224023454,value=201column=personal:name,timestamp=1456224008188,value=pesronA2column=personal:age,timestamp=1456224891317,value=132column=personal:name,timestamp=1456224868967,value=pesronB
我有2个HBase表-一个有一个列族,另一个有4个列族。两个表都由相同的rowkey键控,每个列族都有一个列限定符,一个json字符串作为值(每个json有效负载的大小约为10-20K)。所有列系列都使用快速差异编码和gzip压缩。在向每个表加载大约60MM行后,对第二个表中任何单个列族的扫描测试花费的时间是扫描第一个表中单个列族的时间的4倍。请注意,第二个表上的扫描使用addFamily将扫描限制为仅1个列族,并且两个测试都精确扫描1MM行-因此两种情况下的净工作负载(以及性能预期)应该相同。但是,测试显示第二个表中任何列族的时间是第一个表的4倍。即使在两个表上运行主要压缩后,性能也
在HBase文档“入门”页面的“API使用示例”中有一个扫描器使用示例:Scannerscanner=table.getScanner(newString[]{"myColumnFamily:columnQualifier1"});RowResultrowResult=scanner.next();while(rowResult!=null){//...rowResult=scanner.next();}据我了解,这段代码将在一台机器(namenode)上执行,所有的扫描和过滤工作都不会分散。只会分发数据存储和数据加载。我如何使用分布式扫描器,它将在每个节点上单独工作。快速数据过滤的最
有人知道hbase有什么问题吗?我正在为hadoop使用cloudera发行版的vm图像,以前它工作正常但现在当我尝试列出所有表时每秒都会给我这个错误:10/12/2606:48:07信息ipc.HbaseRPC:尝试1次后无法访问位于/127.0.0.1:58920的服务器,放弃。 最佳答案 我在Ubuntu11.10上遇到了同样的问题。默认安装在/etc/hosts中添加了一行,将我的机器主机名与IP127.0.1.1相关联。我将此链接更改为指向127.0.0.1,Hbase开始工作。此外,其他计算机上类似问题的解决方案要么禁用
我正在使用Spring+DatanucleusJDO+Hbase。Hbase是一个完全分布式的模式,有两个节点。我在这里面临严重的性能问题。我的webapp可以被认为是一个pinger,它只是不断地pingURL并存储他们的响应。Hnce我的应用程序运行多个线程以插入数据库。我观察到,一旦并发写入的数量超过20左右,插入就会开始花费大量时间(有些甚至需要1000秒)。当这种情况发生时,READS也开始失败,我的webapp无法从数据库中提取任何数据(我的webapp挂起)。我不是NoSQL数据库专家,因此不知道从哪里开始寻找性能。我的主要配置是:Zookeeper法定人数:1Hbase
我正在处理存储在HBase中的大量数据。存储在我的列中的许多值实际上是数据的“vector”——多个值。我着手处理存储多个值的方法是通过ByteBuffer。因为我知道列族中每一列中存储的数据类型,所以我编写了一系列扩展基类的类,该基类环绕ByteBuffer并为我提供了一组简单的方法来读取各个值以及在末尾附加附加值。我独立于我的HBase项目测试了这个类,它按预期工作。为了更新我的数据库(几乎每一行在每次更新中都会更新),我使用TableMappermapreduce作业来迭代数据库中的每一行。我的每个映射器(在我的集群中有六个)将整个更新文件(很少超过50MB)加载到内存中,然后在
哪些任务不应该使用HBase?我的理解是,HBase和HDFS应该被视为transient数据存储,仅在map/reduce作业需要它们的时间内保存数据。用HBase作为规范数据存储不合适吗?无论如何,它的随机访问延迟峰值使得这非常不切实际,但这可以通过缓存和其他badn-aids来缓解。 最佳答案 HBase应该用作规范的数据存储(如BigTable,它在许多Google服务中被大量使用)。HDFS是为MapReduce设计的,但HBase是建立在HDFS之上的,它允许的不仅仅是MapReduce。HBase实际上是一个数据库。您
我们在EC2上有一个带有6个区域服务器的小型Hbase集群。最近我们发现其中一个列族中的数据对我们来说真的没有那么有用,因此决定放弃它。这个特定的列族占用了超过50%的磁盘空间。我们更改了表,删除了列族并运行了主要压缩。我们还对“-ROOT-”和“.META”进行了主要压缩。表。但是DFS文件总大小仍然没有减少?我们在这里错过了什么吗?任何帮助/指点将不胜感激。问候。 最佳答案 只是添加另一件事来检查-至少在Hbase0.90.4中,删除表会从HDFS中删除文件,但.logs目录的内容不一定。例如,运行hadoopfs-du/you
我正在尝试启动hbasemaster但出现以下错误:CouldnotstartZKatrequestedportof2181.ZKwasstartedatport:2182.Abortingasclients(e.g.shell)willnotbeabletofindthisZKquorum.13/07/1406:33:23ERRORmaster.HMasterCommandLine:Failedtostartmasterjava.io.IOException:CouldnotstartZKatrequestedportof2181.ZKwasstartedatport:2182.Ab