草庐IT

python - 当使用 hbase 作为数据源时,spark 是否利用 hbase 键的排序顺序

我将时间序列数据存储在HBase中。rowkey由user_id和timestamp组成,像这样:{"userid1-1428364800":{"columnFamily1":{"val":"1"}}}"userid1-1428364803":{"columnFamily1":{"val":"2"}}}"userid2-1428364812":{"columnFamily1":{"val":"abc"}}}}现在我需要执行每个用户的分析。这是hbase_rdd的初始化(来自here)sc=SparkContext(appName="HBaseInputFormat")conf={"hb

hadoop - 如何在 HBase 中区分两个表

我正在尝试比较HBase中的两个不同表,以便我可以自动验证我们用于在HBase中移动数据的一些ETL过程。在HBase中比较两个表的最佳方法是什么?我的用例如下:我想做的是创建一个表,这将是我的预期输出。该表将包含我期望通过针对输入文件执行团队代码而创建的所有数据。然后,我将通过实际输出表和预期输出表之间的差异来验证被测组件的完整性。 最佳答案 我不知道开箱即用的任何东西,但你可以编写一个多表map/reduce。映射器只会从每个表中发出键(值是所有hbase键值加上表名)reducer可以确保它有每个键的2条记录并比较键值。当只有

hadoop - zookeeper.znode.parent 不匹配异常

我已经在ubuntu12.04上安装了hadoop2.2.0&hbase-0.94.18。当我尝试运行命令时create't1','c1'在hbaseshell中,我得到以下错误-ERRORclient.HConnectionManager$HConnectionImplementation:Checkthevalueconfiguredin'zookeeper.znode.parent'.Therecouldbeamismatchwiththeoneconfiguredinthemaster.怎么了? 最佳答案 一些事情没有特别的

hadoop - 使用 MultipleOutputs 在 MapReduce 中写入 HBase

我目前有一个MapReduce作业,它使用MultipleOutputs将数据发送到多个HDFS位置。完成后,我使用HBase客户端调用(在MR之外)将一些相同的元素添加到几个HBase表中。使用TableOutputFormat将HBase输出添加为额外的MultipleOutputs会很好。这样,我将分发我的HBase处理。问题是,我无法让它工作。有没有人在MultipleOutputs中使用过TableOutputFormat...?有多个HBase输出?基本上,我正在设置我的收集器,就像这样....OutputcollectorhbaseCollector1=multipleO

configuration - cdh4 hadoop-hbase PriviledgedActionException 为 :hdfs (auth:SIMPLE) cause:java. io.FileNotFoundException

我已经安装了clouderacdh4release我正在尝试在上面运行mapreduce作业。我收到以下错误-->2012-07-0915:41:16ZooKeeperSaslClient[INFO]ClientwillnotSASL-authenticatebecausethedefaultJAASconfigurationsection'Client'couldnotbefound.IfyouarenotusingSASL,youmayignorethis.Ontheotherhand,ifyouexpectedSASLtowork,pleasefixyourJAASconfigu

hadoop - 使用 HBASE MAP REDUCE API 将数据加载到 Hbase 表中

我对Hbase和MapReduceAPI很陌生。我对MapReduce概念很困惑。我需要使用MAPReduceAPI将文本文件加载到Hbase表中。我用谷歌搜索了一些示例,但在那里我可以找到MAPPER()而不是reducer方法。我对什么时候使用mapper以及什么时候使用Reducer()感到困惑。我的想法是这样的:我们使用映射器将数据写入Hbase从中读取数据HBASE我们使用mapper和reducer()。请任何人清除我详细解释。我正在尝试将数据从文本文件加载到HBASE表。我用谷歌搜索并尝试了一些代码,但我不知道如何加载文本文件并在HBASEmapreduceAPI中读取。

java - hbase可以嵌入到java应用程序中吗?

我对这个大数据真的很陌生,我需要知道hbase可以嵌入到java应用程序中。hbase是java开发的,能不能把hbase加成库做操作?如果可以,谁能给个简单的教程或示例代码。 最佳答案 HBase不是嵌入式运行,它运行在Hadoop之上,它针对大数据和大量服务器。它确实有一个JavaAPI,您可以使用它,例如CharlesMenguy的回复 关于java-hbase可以嵌入到java应用程序中吗?,我们在StackOverflow上找到一个类似的问题: ht

hadoop - Hbase 将数据存储在哪里?

我是HBase的新手。目前我正在使用hortonworks沙箱hdp2。在学习Hbase的过程中,我遇到了一些问题。hbase在哪里存储数据?如果它存储在HDFS上,那么它如何执行更新操作,因为hdfs是一次写入多次读取 最佳答案 默认情况下,Hbase将数据存储在HDFS中。可以在其他分布式文件系统(如Amazons3、GFS等)上运行HBase。我们不能编辑hdfs,但我们可以将数据附加到HDFS。HDFS支持附加功能。HBase使用HFile作为将表存储在HDFS上的格式。HFile使用行键按字典顺序存储键。它是一种用于存储键

hadoop - 为什么我们需要 hadoop 用于 hypertable

我用C++编写了一个爬虫,我正在寻找一个分布式数据存储,我找到了21)数据库2)超表两者都是Bigtable的实现,我刚刚回顾了hypertable..因为它是用c++实现的,并且..hbase使用最广泛我的问题是我们需要hadoop的方式......如果我在hadoop之上运行hypertable有什么好处吗? 最佳答案 不需要使用Hadoop。Hypertable只需要在分布式文件系统之上运行。因此,您可以在HadoopDFS、KosmosFS、GlusterFS、Ceph和其他一些(如MooseFS或Lustre)之间进行选择

hadoop - org.apache.hadoop.hbase.TableNotFoundException : SYSTEM. 目录异常与凤凰 4.5.2

我一直在尝试将Phoenix4.5.2集成到我现有的hadoop集群中。HadoopVersion:2.7.1HBaseVersion:1.1.2当我尝试从我的phoenix客户端创建表时,出现以下异常。但我能够从HBase控制台成功创建表。org.apache.phoenix.exception.PhoenixIOException:SYSTEM.CATALOGatorg.apache.phoenix.util.ServerUtil.parseServerException(ServerUtil.java:108)atorg.apache.phoenix.query.Connecti