hbase-parameter-tuning

java - HBase 分区域负载均衡

我有一个5节点的HBase集群，主要有获取顺序数据的输入请求。为了优化存储，我在高负载区域上运行了手动区域拆分，但它并没有优化太多，因为它拆分了区域，但主要是在同一个区域服务器上。如何以这种方式控制区域分割r-1(k1tok2)onservers1,r-2(k2tok3)onservers2,r-3(k3tok4)onservers3,r-4(k4tok5)onservers4,r-5(k5tok6)onservers5,r-6(k6tok7)onservers1,即拆分后，没有连续的region去同一台服务器控制同一台服务器上的负载。最佳答案

hadoop - 配置 Hadoop、HBase 和 Hive 集群

我是Hadoop、HBase和Hive的新手。我以伪分布式模式安装了Hadoop、HBase和Hive，一切正常。现在我打算用Hive、HBase和ZooKeeper建立一个简单的Hadoop集群(5个节点)。我之前阅读了几份文档和说明，但找不到对我的问题的很好解释。我不确定，在哪里运行所有守护进程。这是我的考虑:Node_1(主节点)名称节点工作追踪器HBase大师ZooKeeper(独立节点；由HBase管理)Node_2(Backup_Master)次要节点Node_3(从站1)数据节点1TaskTracker1区域服务器1Node_4(从站2)数据节点2任务追踪器2区域服务器2

hadoop strong li section hbase hive apache-zookeeper

hadoop - 有什么方法可以创建自动缩放的 Hadoop Hbase 集群

我将awsautoscaling用于我的网络服务器，将Apachewhirr用于hadoophabse集群。Apachewhirr是否具有自动缩放属性。最佳答案您可以使用基于容器的框架ApacheMesos。Mesos在容器上工作(例如，启动服务的docker。)在Mesos中，您可以配置所需的实例数量、配置资源、放大/缩小等。它还将负责更新维护进程的状态。这是最近发表的hbaseconf2015adobe已经开始在他们的产品中使用mesos进行自动缩放。您还可以使用googlekuberneetes或marathon来管理集群

hadoop section strong Mesos amazon-web-services hbase apache-whirr

hadoop - Pig、Oozie 和 HBase - java.io.IOException : No FileSystem for scheme: hbase

我的Pig脚本本身运行良好，直到我将它放入Oozie工作流中时，我收到以下错误:ERROR2043:Unexpectederrorduringexecution.org.apache.pig.backend.executionengine.ExecException:ERROR2043:Unexpectederrorduringexecution....Causedby:java.io.IOException:NoFileSystemforscheme:hbase我成功注册了HBase和Zookeeperjar，但收到了同样的错误。我还尝试通过在Pig脚本中添加这些行的变体来设置Zoo

IOException FileSystem section code Zookeeper hadoop hbase apache-pig hbasestorage

hadoop - 手动修复Hbase表重叠(多区域具有相同的启动键)

我是通过Java客户端将数据插入到Hbase中的。但是，区域服务器突然崩溃了。所以我重新启动了hbase，之后hmaster就不运行了。当我运行修复工具-hbaseorg.apache.hadoop.hbase.util.hbck.OfflineMetaRepair时，我得到了以下原因：ERROR:(regionTABLE_NAME,rowkey_value,region_name_1)Multipleregionshavethesamestartkey:rowkey_valueERROR:(regionTABLE_NAME,rowkey_value,region_name_2)Mul

hadoop Hbase namenode hdfs bigdata

hadoop - HBase 连接挂起在 INFO ClientCnxn - 服务器上的 session 建立完成

我正在尝试从我的eclipse连接到Hadoop(2.4)上的HBase(版本0.94.18)并在此之后进行连接。这只发生在我的本地机器上。代码在服务器上运行良好。有什么想法吗？INFOZooKeeper-Clientenvironment:user.dir=D:\eclipse\eclipse-jee-64\eclipseINFOZooKeeper-Initiatingclientconnection,connectString=11.45.66.78:2181sessionTimeout=180000watcher=hconnectionINFOClientCnxn-Opening

ClientCnxn session section INFO hadoop amazon-web-services hbase emr

hadoop - 以独立模式运行 HBase 但收到 hadoop "retrying connect to server"消息？

我正尝试按照本教程在独立模式下运行HBase:http://hbase.apache.org/book.html#quickstart当我尝试运行时出现以下异常create'test','cf'在HBase外壳中ERROR:org.apache.hadoop.hbase.PleaseHoldException:org.apache.hadoop.hbase.PleaseHoldException:Masterisinitializing我在这里看到了有关此错误的问题，但解决方案对我没有用。也许更麻烦，也可能是问题的核心，是当我停止HBase时，我在日志中一遍又一遍地收到以下消息:INF

hadoop amp gt lt property hbase

python - RDD 只有第一列值 : Hbase, PySpark

我们正在使用以下命令使用Pyspark读取Hbase表。frompyspark.sql.typesimport*host=port=keyConv="org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter"valueConv="org.apache.spark.examples.pythonconverters.HBaseResultToStringConverter"cmdata_conf={"hbase.zookeeper.property.clientPort":port

PySpark python 39 section 34 hadoop hbase bigdata

hadoop - Hbase 区域在不应该的时候 split

我们有一些表配置了DelimitedKeyPrefixRegionSplitPolicy(继承自IncreasingToUpperBoundRegionSplitPolicy)，内存存储刷新大小为128M，表MAX_FILESIZE约为20GB。根据我们的计算，在区域大小达到20GB(4^3*256M=16GB)之前，每个服务器不应获得超过5个区域，但每个区域服务器有7-15个区域。我们之前将它们组合起来以获得正确的数字，但随后它们又分开了。我们使用的是hbase0.98.4，表描述显示{TABLE_ATTRIBUTES=>{MAX_FILESIZE=>'21474836480'...

hadoop Hbase section stackoverflow MAX_FILESIZE

hadoop - HBase 中的 org.apache.hadoop.hbase.io.ImmutableBytesWritable 异常

我们尝试测试以下用于访问HBase表(Spark-1.3.1、HBase-1.1.1、Hadoop-2.7.0)的示例代码:importsysfrompysparkimportSparkContextif__name__=="__main__":iflen(sys.argv)!=3:print>>sys.stderr,"""Usage:hbase_inputformatRunwithexamplejar:./bin/spark-submit--driver-class-path/path/to/example/jar\/path/to/examples/hbase_inputforma

hadoop ImmutableBytesWritable java 34 apache apache-spark