hbase-parameter-tuning

hadoop - hbase 设计连接长键值对与多列

请帮助我了解在HBase中存储信息的最佳方式。基本上，我有一个像hashed_uid+date+session_id这样的行键，带有持续时间、日期、时间、位置、深度等指标。我读了很多我有点困惑的Material。人们建议减少列族以获得更好的性能，因此我面临三个选择:让每个指标排成一行，如rowkey_keycf1->alias1:value有很多列，比如rowkeycf1->key1:val1,cf1->key2:val2...将所有键值对编码成一个大字符串，如rowkeycf1->"k1:v1,k2:v2,k3:v3..."提前致谢。我不知道该选择哪个。我的HBase设计目标是为用户

多列 hadoop section code li hive hbase

sql-server - 如何在 HBase 中查看 3 版本的数据

我有一个包含6列的SQL表，“row_id”，“customer_id”，“f_name”，“l_name”，“location”，“last_update_date”。1)我已经通过SQOOP为上面的SQL表创建了一个HBase表，下面是sqoop语法sqoopimport--connect"jdbc:sqlserver://server:port;databaseName=db"--usernamexxx--passwordxxx--tablexxx--hbase-tablexxx--column-familyamitesh--hbase-row-keyrow_id,custome

何在 sql-server 39 amitesh 1497365606380 hadoop hbase sqoop

hadoop - Flume 不存储数据到 hbase

虽然我能够将Flume数据(来自Kafka)正确地存储在HDFS中，但我没有运气将它们存储在HBase中......平台是Cloudera5.10.1。我的flumeconf是:tier1.sources=source1tier1.channels=channel1#tier1.sinks=hdfs1tier1.sinks=hbase1tier1.sources.source1.type=org.apache.flume.source.kafka.KafkaSourcetier1.sources.source1.zookeeperConnect=master3d.localdomain

hadoop Flume tier1 tier sinks hbase cloudera

maven - 运行hbase java程序出错

下面是我的javahbasecreatetable程序:-publicclasscreatetable{publicstaticvoidmain(String[]args)throwsIOException{Configurationconf=HBaseConfiguration.create();conf.set("hbase.zookeeper.quorum","sandbox.hortonworks.com");conf.set("hbase.zookeeper.property.clientPort","2181");conf.set("zookeeper.znode.pare

maven hbase java section hadoop mapreduce apache-zookeeper

scala - Spark 读取 HBase 与 java.lang.NoSuchMethodError : org. apache.hadoop.mapreduce.InputSplit.getLocationInfo 错误

我想用scala读取HbasebySpark，但是我得到了错误:线程“dag-scheduler-event-loop”java.lang.NoSuchMethodError中的异常:org.apache.hadoop.mapreduce.InputSplit.getLocationInfo()[Lorg/apache/hadoop/mapred/SplitLocationInfo;但是我已经添加了依赖项，这个问题困扰着我。我的环境如下:scala:2.11.12星火:2.3.1HBase:可能是2.1.0(我不知道)Hadoop:2.7.2.4而我的build.sbt是:librar

NoSuchMethodError getLocationInfo 34 apache hadoop scala apache-spark hbase

hadoop - 每秒 HBase 请求为零

我刚刚在HBase中创建了一个表并用数据填充了它。从7个区域服务器看来，数据已写入区域服务器6和7。但我不明白为什么服务器6和7的每秒请求数为零？最佳答案读取请求计数和写入请求计数是特定区域服务器自重启以来读取和写入请求的总数。这些数字仅出于性能原因保留在内存中，并通过HBaseUI用于公开它们的JMX和区域服务器加载API公开。您可以使用API(或JMX)自行获取它们并导出到数据库以实现持久性。Requestpersecond是相关区域服务器现在看到的总请求(读+写)的速率。该速率是根据该区域服务器在一段时间内看到的请求数除以

hadoop HBase section strong

hadoop - 将 HDFS 复制因子降低到 2(或仅一个)对 HBase 映射/降低性能的影响

将HDFS复制因子降低到2(或仅一个)对HBase映射/降低性能有何影响？我有一个托管在AzureVM上的HBase集群，数据存储在azure托管磁盘中。Azure托管磁盘本身保留了3个数据副本用于容错，因此考虑降低HDFS复制因子以节省存储开销。考虑到mapreduce作业利用数据的本地可用性来避免通过网络传输数据，想知道如果只有一个数据副本可用，是否有人知道任何关于mapreduce性能影响的信息？最佳答案这是一个很难回答的问题，因为它在很大程度上取决于您运行的工作负载。通过降低复制因子，您可以加快写入操作的性能，因为数据写

hadoop HBase section HDFS Azure mapreduce apache-phoenix

java - 安装 Apache Pig，为什么我看到 Hbase 和 Hive 正在安装？

我正在从this安装Apachepig的piggybank|教程。当我使用ant构建源代码时，我观察到它安装了apachehive和hbase。谁能告诉我为什么这样做？Dosepig使用hive和hbase？最佳答案 Pig有HBase和Hive作为依赖，因为它有一个HBaseloader和一个Hiveloader标准发行版附带的。我不担心它们会被安装。他们只是构建jar，而不是部署任何东西。关于java-安装ApachePig，为什么我看到Hbase和Hive正在安装？，我们在St

Apache Hbase section strong java hadoop apache-pig

import - HBase 导出/导入 : Unable to find output directory

我正在为我的应用程序使用HBase，我正在尝试使用org.apache.hadoop.hbase.mapreduce.Export导出数据，因为它是指示here.我面临的问题是，一旦执行了命令，创建导出时就没有错误。但是指定的输出目录并没有出现在它的位置。我使用的命令是$bin/hbaseorg.apache.hadoop.hbase.mapreduce.Exporttable_namedb_dump/ 最佳答案我得到了解决方案，因此我正在回复我自己的答案hadoop的conf目录下的hadoop-env.sh必须有如下两行exp

directory import hbase hadoop code export

scala - 为什么我的jar 看不到环境中的HBase 配置？

我编写了一个试图创建默认HBaseConfiguration的应用程序，但是当我将应用程序打包为jar时，它无法正常工作，因为它正在尝试使用127.0.0.1的zookeeper而不是我在/etc/hbase/conf/hbase-site.xml。该应用程序可以简化为如下所示:objectTestUtilextendsApp{valhbaseTable=newHTable(HBaseConfiguration.create,"tableName")println(hbaseTable)}当我使用以下命令运行它时，它工作正常:CLASSPATH=`hbaseclasspath`java

scala HBase code section hadoop jvm classpath

179 180 181182183 184 185