$HBase

hadoop - 在 ambari 中使用 hbase 时出现连接问题

最近我一直在研究Ambari。但是在我安装成功之后，除了HBase之外，一切都运行良好。只有HBasemaster是好的，其他RegionServers都收到告警:Connectionfailed:[Errno111]Connectionrefusedtoserver1.hadoop:16030.(thedomainnamediffersfrommachines.)有人遇到同样的问题吗？最佳答案我已经解决了这个问题。我在我的区域服务器的/var/log/hbase/*.log中读取了日志文件，发现它的时钟与主时钟不同步。所以我让

时出 hadoop section stackoverflow hbase ambari

hadoop - 如何将hbase表中的数据导入到hive表中？

我创建了一个这样的Hbase表，create'student','personal'我已经像这样将一些数据放入其中。ROWCOLUMN+CELL1column=personal:age,timestamp=1456224023454,value=201column=personal:name,timestamp=1456224008188,value=pesronA2column=personal:age,timestamp=1456224891317,value=132column=personal:name,timestamp=1456224868967,value=pesronB

hadoop hbase personal timestamp code hive

apache - HBase 多列族性能

我有2个HBase表-一个有一个列族，另一个有4个列族。两个表都由相同的rowkey键控，每个列族都有一个列限定符，一个json字符串作为值(每个json有效负载的大小约为10-20K)。所有列系列都使用快速差异编码和gzip压缩。在向每个表加载大约60MM行后，对第二个表中任何单个列族的扫描测试花费的时间是扫描第一个表中单个列族的时间的4倍。请注意，第二个表上的扫描使用addFamily将扫描限制为仅1个列族，并且两个测试都精确扫描1MM行-因此两种情况下的净工作负载(以及性能预期)应该相同。但是，测试显示第二个表中任何列族的时间是第一个表的4倍。即使在两个表上运行主要压缩后，性能也

多列 apache section 的 stackoverflow hadoop hbase nosql

hadoop - HBase 分布式扫描器

在HBase文档“入门”页面的“API使用示例”中有一个扫描器使用示例:Scannerscanner=table.getScanner(newString[]{"myColumnFamily:columnQualifier1"});RowResultrowResult=scanner.next();while(rowResult!=null){//...rowResult=scanner.next();}据我了解，这段代码将在一台机器(namenode)上执行，所有的扫描和过滤工作都不会分散。只会分发数据存储和数据加载。我如何使用分布式扫描器，它将在每个节点上单独工作。快速数据过滤的最

hadoop HBase section rowResult scanner

hadoop - hbase 错误 : "10/12/26 06:48:07 INFO ipc.HbaseRPC: Server at/127.0.0.1:58920 could not be reached after 1 tries, giving up."

有人知道hbase有什么问题吗？我正在为hadoop使用cloudera发行版的vm图像，以前它工作正常但现在当我尝试列出所有表时每秒都会给我这个错误:10/12/2606:48:07信息ipc.HbaseRPC:尝试1次后无法访问位于/127.0.0.1:58920的服务器，放弃。最佳答案我在Ubuntu11.10上遇到了同样的问题。默认安装在/etc/hosts中添加了一行，将我的机器主机名与IP127.0.1.1相关联。我将此链接更改为指向127.0.0.1，Hbase开始工作。此外，其他计算机上类似问题的解决方案要么禁用

amp HbaseRPC section strong stackoverflow hadoop hbase

nosql - Hbase性能

我正在使用Spring+DatanucleusJDO+Hbase。Hbase是一个完全分布式的模式，有两个节点。我在这里面临严重的性能问题。我的webapp可以被认为是一个pinger，它只是不断地pingURL并存储他们的响应。Hnce我的应用程序运行多个线程以插入数据库。我观察到，一旦并发写入的数量超过20左右，插入就会开始花费大量时间(有些甚至需要1000秒)。当这种情况发生时，READS也开始失败，我的webapp无法从数据库中提取任何数据(我的webapp挂起)。我不是NoSQL数据库专家，因此不知道从哪里开始寻找性能。我的主要配置是:Zookeeper法定人数:1Hbase

nosql Hbase section performance hadoop datanucleus

java - 附加到 HBase TableMapper 返回值的额外字节

我正在处理存储在HBase中的大量数据。存储在我的列中的许多值实际上是数据的“vector”——多个值。我着手处理存储多个值的方法是通过ByteBuffer。因为我知道列族中每一列中存储的数据类型，所以我编写了一系列扩展基类的类，该基类环绕ByteBuffer并为我提供了一组简单的方法来读取各个值以及在末尾附加附加值。我独立于我的HBase项目测试了这个类，它按预期工作。为了更新我的数据库(几乎每一行在每次更新中都会更新)，我使用TableMappermapreduce作业来迭代数据库中的每一行。我的每个映射器(在我的集群中有六个)将整个更新文件(很少超过50MB)加载到内存中，然后在

TableMapper HBase code section value java hadoop mapreduce

architecture - HBase 反模式

哪些任务不应该使用HBase？我的理解是，HBase和HDFS应该被视为transient数据存储，仅在map/reduce作业需要它们的时间内保存数据。用HBase作为规范数据存储不合适吗？无论如何，它的随机访问延迟峰值使得这非常不切实际，但这可以通过缓存和其他badn-aids来缓解。最佳答案 HBase应该用作规范的数据存储(如BigTable，它在许多Google服务中被大量使用)。HDFS是为MapReduce设计的，但HBase是建立在HDFS之上的，它允许的不仅仅是MapReduce。HBase实际上是一个数据库。您

architecture HBase section strong hadoop hdfs

hadoop - Hbase- 即使删除列族后 Hadoop DFS 大小也没有减少

我们在EC2上有一个带有6个区域服务器的小型Hbase集群。最近我们发现其中一个列族中的数据对我们来说真的没有那么有用，因此决定放弃它。这个特定的列族占用了超过50%的磁盘空间。我们更改了表，删除了列族并运行了主要压缩。我们还对“-ROOT-”和“.META”进行了主要压缩。表。但是DFS文件总大小仍然没有减少？我们在这里错过了什么吗？任何帮助/指点将不胜感激。问候。最佳答案只是添加另一件事来检查-至少在Hbase0.90.4中，删除表会从HDFS中删除文件，但.logs目录的内容不一定。例如，运行hadoopfs-du/you

即使 hadoop section stackoverflow Hbase

hadoop - Hbase master 无法启动

我正在尝试启动hbasemaster但出现以下错误:CouldnotstartZKatrequestedportof2181.ZKwasstartedatport:2182.Abortingasclients(e.g.shell)willnotbeabletofindthisZKquorum.13/07/1406:33:23ERRORmaster.HMasterCommandLine:Failedtostartmasterjava.io.IOException:CouldnotstartZKatrequestedportof2181.ZKwasstartedatport:2182.Ab

hadoop master hbase section HMasterCommandLine

131 132 133134135 136 137