草庐IT

hbase-unsecure

全部标签

hadoop - 如何运行 Hbase Java 示例?

我在运行简单的Hbase示例时遇到问题。我在HbaseTest.java上创建了一个表并插入了一些记录。在Unix中,我可以编译java类。由。$javac-classpathhbase-0.94.2.jar:hadoop-core-1.0.4.jarHBaseTest.java但我无法通过以下方式运行该程序:$java-classpathhbase-0.94.2.jar:hadoop-core-1.0.4.jarHBaseTest以上命令对我不起作用。不确定是什么问题?这是运行HbaseJava示例的正确方法吗? 最佳答案 您可以

hadoop - 如何在 HBase 中预拆分表

我将数据存储在具有5个区域服务器的HBase中。我使用url的md5哈希作为我的行键。目前所有数据都只存储在一个区域服务器中。所以我想预先拆分区域,以便数据在所有区域服务器上统一传输。我想通过行键的第一个字符将表分成五个区域,以便行键从0到3的数据进入第一个区域服务器,3-6到第二个,7-9到第三个,a-d到第四个,d-f到5号。我该怎么做? 最佳答案 您可以在创建表时提供​​SPLITS属性。create'tableName','cf1',{SPLITS=>['3','6','9','d']}4个分割点将生成5个区域。请注意HBa

hadoop - 如何通过hdfs导入/导出hbase数据(hadoop命令)

我已经通过nutch将我爬取的数据保存在文件系统为hdfs的Hbase中。然后我通过命令将我的数据(hbase的一张表)从hdfs直接复制到某个本地目录hadoopfs-CopyToLocal/hbase/input~/Documents/output之后,我通过以下命令将该数据复制回另一个hbase(其他系统)hadoopfs-CopyFromLocal~/Documents/input/hbase/mydata它保存在hdfs中,当我在hbaseshell中使用list命令时,它显示为另一个表,即“mydata”,但是当我运行scan命令时,它说没有名称为“mydata”的表。上述

Hadoop 和 HBase

您好,我是hbase和hadoop的新手。我找不到为什么我们将hadoop与hbase一起使用。我知道hadoop是一个文件系统,但我读到我们可以在没有hadoop的情况下使用hbase那么我们为什么要使用hadoop?谢谢 最佳答案 Hadoop是一个允许我们以并行方式存储和处理跨机器集群的大量数据的平台。它是一个批处理系统,我们不必担心数据存储或处理的内部结构。它不仅提供HDFS,用于可靠数据存储的分布式文件系统,还提供处理框架MapReduce,允许跨机器集群处理庞大的数据集以并行方式。Hadoop的最大优势之一是它提供数据局

java - 设计 HBase 模式以最好地支持特定查询

我有一个与HBase模式设计相关的问题。问题相当简单——我在hbase中存储“通知”,每个通知都有一个状态("new"、“已读”和“已读”)。以下是我需要提供的API:获取用户的所有通知获取用户的所有"new"通知获取用户所有"new"通知的计数更新通知状态更新用户所有通知的状态获取数据库中的所有"new"通知通知应该可以按时间倒序浏览并允许分页。我有几个想法,我想看看其中一个是否显然是最好的,或者我是否完全错过了一个好的策略。这三者的共同点是,我认为每个通知只有一行,并且在行键中包含用户ID是可行的方法。为了获得分页的时间顺序,我也需要在那里有一个反向时间戳。我想将所有通知保存在一个

java - 使用 HDFS 输入和 HBASE 输出的 hadoop map reduce 作业

我是hadoop的新手。我有一个MapReduce作业,它应该从Hdfs获取输入并将reducer的输出写入Hbase。我还没有找到任何好的例子。这是代码,运行这个例子的错误是Typemismatchinmap,expectedImmutableBytesWritablerecievedIntWritable.映射器类publicstaticclassAddValueMapperextendsMapper{/*input*output*/publicvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsIOException,In

configuration - 如何针对远程集群运行 HBase shell

我在我的工作站上以伪分布式模式运行HBase。我们还在集群上运行HBase。使用HBaseshell,我想从我的工作站访问集群上运行的HBase实例。我想在不登录其中一台集群机器的情况下执行此操作。使用Hadoop,您可以通过指定-conf参数并提供hadoop-site.xml的替代版本在远程集群上运行作业。HBaseshell是否有等效项?我在我的工作站和集群机器上运行clouderacdh3u3。 最佳答案 更改以下配置文件。对于hadoop:core-site.xml、mapred-site.xml。对于hbase:hbas

hadoop - HBase如何实现对HDFS的随机访问?

鉴于HBase是一个数据库,其文件存储在HDFS中,它如何实现对HDFS中单个数据的随机访问?这是通过什么方法实现的?来自theApacheHBaseReferenceGuide:HBaseinternallyputsyourdatainindexed"StoreFiles"thatexistonHDFSforhigh-speedlookups.SeetheChapter5,DataModelandtherestofthischapterformoreinformationonhowHBaseachievesitsgoals.浏览这两章并没有揭示这个问题的高级答案。那么HBase是如何

scala - 通过 Spark 访问 HBase 表

我正在使用这个代码示例http://www.vidyasource.com/blog/Programming/Scala/Java/Data/Hadoop/Analytics/2014/01/25/lighting-a-spark-with-hbase使用Spark读取hbase表,唯一的变化是通过代码添加hbase.zookeeper.quorum,因为它不是从hbase-site.xml中选取它。星火1.5.3HBase0.98.0我正面临这个错误-java.lang.IllegalAccessError:com/google/protobuf/HBaseZeroCopyByteS

rdbms - 如何设计Hbase架构?

假设我有这个RDBM表(Entity-attribute-value_model):col1:entityIDcol2:attributeNamecol3:value由于扩展问题,我想使用HBase。我知道访问Hbase表的唯一方法是使用主键(游标)。您可以获得特定键的游标,并逐行迭代行。问题是,就我而言,我希望能够迭代所有3列。例如:对于给定的entityID,我想获得它的所有属性和值对于给定的attributeName和值,我想要所有的entitiIDS...所以我的一个想法是构建一个Hbase表来保存数据(表DATA,以entityID作为主索引),以及2个“索引”表,一个以at