草庐IT

hbase-parameter-tuning

全部标签

java - 如何在类路径中包含 hbase-site.xml

我目前正在尝试让我的HBase代码使用我的hbase-site.xml中指定的设置。它似乎使用默认设置而不是hbase-site.xml配置文件中指定的设置。更新文件后我重新启动了HBase集群,但它仍然没有使用我更新的配置文件。我使用的集群是2个节点,其中一个是master。两个节点上的配置文件都将主节点的IP指定为zookeeperquorum。我认为问题是我在hbase-site.xml中指定的设置没有被使用,因为如果我通过代码将zookeeperquorum设置为与我的hbase-site.xml中相同的值,代码运行正常,但第二个节点不能如果未通过代码指定法定人数,请联系mas

hadoop - 使用 HBASE 的 Spark 与使用 HDFS 的 Spark

我知道HBASE是一个列式数据库,将表的结构化数据按列而不是按行存储到HDFS中。我知道Spark可以从HDFS读取/写入,并且有一些用于Spark的HBASE连接器现在也可以读写HBASE表。问题:1)在HBASE之上分层Spark而不是单独使用HBASE带来了哪些附加功能?这仅取决于程序员的能力,或者是否有任何性能理由这样做?有没有Spark可以做而HBASE不能做的事情?2)源于上一个问题,什么时候应该在HDFS和SPARK之间添加HBASE而不是直接使用HDFS? 最佳答案 1)Whataretheaddedcapabili

azure - HDInsight : HBase or Azure Table Storage?

目前,我的团队正在创建一个使用HDInsight的解决方案。我们每天将获得5TB的数据,并且需要对这些数据执行一些map/reduce作业。如果我们的数据存储在AzureTableStorage而不是AzureHBase中,会有任何性能/成本差异吗? 最佳答案 主要区别在于功能和成本。AzureTableStorage本身没有附加mapreduce引擎,但您当然可以使用mapreduce方法编写自己的引擎。您可以使用AzureHDInsight将MapReduce连接到表存储。周围有几个连接器,包括我编写的一个以配置单元为中心的连接

java - (HBase) 错误 : JAVA_HOME is not set and Java could not be found

我已经阅读了一些关于设置JAVA_HOME的评论。因为我是这方面的初学者,所以我没有在不知道自己在做什么的情况下编辑任何东西。我不想把事情搞得更糟。因此,如果您能指导我解决这个问题并告诉我我的编码有什么问题,我将不胜感激。我一直在尝试安装Hadoop,然后安装HBase。在解决了很多困难和错误之后,我终于可以安装Hadoop,并在运行start-all.sh时得到这个输出,一切似乎都很好。>hduser@CSLAP106:~$/usr/local/hadoop/bin/start-all.sh>hduser@CSLAP106:~$jps>3005NameNode>3404JobTrac

hadoop - 从 HDFS 导入数据到 HBase (cdh3u2)

我已经安装了hadoop和hbasecdh3u2。在hadoop中,我在路径/home/file.txt中有一个文件。它有这样的数据one,1two,2three,3我想将这个文件导入到hbase中。其中,第一个字段应解析为字符串,第二个字段应解析为整数,然后应将其插入hbase。帮我做这个a提前致谢.... 最佳答案 我喜欢使用ApachePig来摄取HBase,因为它简单、直接且灵活。这是一个Pig脚本,可以在您创建表和列族后为您完成这项工作。要创建表和列族,您需要:$hbaseshell>create'mydata','myc

hadoop - Hbase mapreduce错误

我写作业mapreduce,输入是hbase中的一张表。作业运行时出现错误:org.apache.hadoop.hbase.client.ScannerTimeoutException:88557mspassedsincethelastinvocation,timeoutiscurrentlysetto60000atorg.apache.hadoop.hbase.client.HTable$ClientScanner.next(HTable.java:1196)atorg.apache.hadoop.hbase.mapreduce.TableRecordReaderImpl.nextK

shell - get "ERROR: Can' t 从 ZooKeeper 获取主地址; znode data == null"使用 Hbase shell 时

我安装了Hadoop2.2.0和Hbase0.98.0,这是我所做的:$./bin/start-hbase.sh$./bin/hbaseshell2.0.0-p353:001>list然后我得到了这个:ERROR:Can'tgetmasteraddressfromZooKeeper;znodedata==null为什么我会收到这个错误?另一个问题:我需要在运行base之前运行./sbin/start-dfs.sh和./sbin/start-yarn.sh吗?另外,./sbin/start-dfs.sh和./sbin/start-yarn.sh有什么用?这是我的一些conf文档:hbas

amazon-ec2 - 在 EC2 集群上安装 Hbase/Hadoop

我知道我可以分拆出一个安装了Hadoop的EC2集群(除非我错了)。Hbase怎么样?我可以预先准备好Hadoop和Hbase吗?或者我需要弄脏我的手吗?如果它不是一个选项,什么是最好的选择?Cloudera显然有一个包含两者的软件包。这是要走的路吗?感谢您的帮助。 最佳答案 hbase有一组ec2脚本,可以让您快速设置并准备好运行。它允许您配置zk服务器和从节点的数量,但我不确定它们在哪些版本中可用。我正在使用0.20.6。设置一些S3/EC2信息后,您可以执行以下操作:/usr/local/hbase-0.20.6/contri

hadoop - 在 HBase 与 Parquet 文件中存储数据

我是大数据的新手,正在尝试了解保存和检索数据的各种方式。我知道Parquet和HBase都是面向列的存储格式,但Parquet是面向文件的存储,而不是与HBase不同的数据库。我的问题是:使用Parquet代替HBase的用例是什么是否有Parquet可以与HBase一起使用的用例。在执行连接的情况下,Parquet的性能会比HBase(比如,通过像Phoenix这样的SQL皮肤访问)? 最佳答案 正如您已经提到的,parquet是一种存储,而HBase是存储(HDFS)+查询引擎(API/shell),因此应该在parquet+I

database - HBase 错误 - 分配 -ROOT- 失败

我刚刚从cloudera(3)安装了hadoop和hbase,但是当我尝试转到http://localhost:60010时它只是坐在那里不断加载。我可以正常访问区域服务器-http://localhost:60030...查看主hbase服务器日志,我可以看到以下内容。看起来像是根区域的问题。所有这些都安装在运行Ubuntu(Natty)11的ext41TB分区上。没有集群/其他盒子。任何帮助都会很棒!11/05/1519:58:27WARNmaster.AssignmentManager:Failedassignmentof-ROOT-,,0.70236052toserverNam