草庐IT

Hbase常用命令

全部标签

hadoop - 如何在 HBase 中区分两个表

我正在尝试比较HBase中的两个不同表,以便我可以自动验证我们用于在HBase中移动数据的一些ETL过程。在HBase中比较两个表的最佳方法是什么?我的用例如下:我想做的是创建一个表,这将是我的预期输出。该表将包含我期望通过针对输入文件执行团队代码而创建的所有数据。然后,我将通过实际输出表和预期输出表之间的差异来验证被测组件的完整性。 最佳答案 我不知道开箱即用的任何东西,但你可以编写一个多表map/reduce。映射器只会从每个表中发出键(值是所有hbase键值加上表名)reducer可以确保它有每个键的2条记录并比较键值。当只有

hadoop - 使用 MultipleOutputs 在 MapReduce 中写入 HBase

我目前有一个MapReduce作业,它使用MultipleOutputs将数据发送到多个HDFS位置。完成后,我使用HBase客户端调用(在MR之外)将一些相同的元素添加到几个HBase表中。使用TableOutputFormat将HBase输出添加为额外的MultipleOutputs会很好。这样,我将分发我的HBase处理。问题是,我无法让它工作。有没有人在MultipleOutputs中使用过TableOutputFormat...?有多个HBase输出?基本上,我正在设置我的收集器,就像这样....OutputcollectorhbaseCollector1=multipleO

configuration - cdh4 hadoop-hbase PriviledgedActionException 为 :hdfs (auth:SIMPLE) cause:java. io.FileNotFoundException

我已经安装了clouderacdh4release我正在尝试在上面运行mapreduce作业。我收到以下错误-->2012-07-0915:41:16ZooKeeperSaslClient[INFO]ClientwillnotSASL-authenticatebecausethedefaultJAASconfigurationsection'Client'couldnotbefound.IfyouarenotusingSASL,youmayignorethis.Ontheotherhand,ifyouexpectedSASLtowork,pleasefixyourJAASconfigu

hadoop - 使用 HBASE MAP REDUCE API 将数据加载到 Hbase 表中

我对Hbase和MapReduceAPI很陌生。我对MapReduce概念很困惑。我需要使用MAPReduceAPI将文本文件加载到Hbase表中。我用谷歌搜索了一些示例,但在那里我可以找到MAPPER()而不是reducer方法。我对什么时候使用mapper以及什么时候使用Reducer()感到困惑。我的想法是这样的:我们使用映射器将数据写入Hbase从中读取数据HBASE我们使用mapper和reducer()。请任何人清除我详细解释。我正在尝试将数据从文本文件加载到HBASE表。我用谷歌搜索并尝试了一些代码,但我不知道如何加载文本文件并在HBASEmapreduceAPI中读取。

java - hbase可以嵌入到java应用程序中吗?

我对这个大数据真的很陌生,我需要知道hbase可以嵌入到java应用程序中。hbase是java开发的,能不能把hbase加成库做操作?如果可以,谁能给个简单的教程或示例代码。 最佳答案 HBase不是嵌入式运行,它运行在Hadoop之上,它针对大数据和大量服务器。它确实有一个JavaAPI,您可以使用它,例如CharlesMenguy的回复 关于java-hbase可以嵌入到java应用程序中吗?,我们在StackOverflow上找到一个类似的问题: ht

hadoop - Hbase 将数据存储在哪里?

我是HBase的新手。目前我正在使用hortonworks沙箱hdp2。在学习Hbase的过程中,我遇到了一些问题。hbase在哪里存储数据?如果它存储在HDFS上,那么它如何执行更新操作,因为hdfs是一次写入多次读取 最佳答案 默认情况下,Hbase将数据存储在HDFS中。可以在其他分布式文件系统(如Amazons3、GFS等)上运行HBase。我们不能编辑hdfs,但我们可以将数据附加到HDFS。HDFS支持附加功能。HBase使用HFile作为将表存储在HDFS上的格式。HFile使用行键按字典顺序存储键。它是一种用于存储键

hadoop - org.apache.hadoop.hbase.TableNotFoundException : SYSTEM. 目录异常与凤凰 4.5.2

我一直在尝试将Phoenix4.5.2集成到我现有的hadoop集群中。HadoopVersion:2.7.1HBaseVersion:1.1.2当我尝试从我的phoenix客户端创建表时,出现以下异常。但我能够从HBase控制台成功创建表。org.apache.phoenix.exception.PhoenixIOException:SYSTEM.CATALOGatorg.apache.phoenix.util.ServerUtil.parseServerException(ServerUtil.java:108)atorg.apache.phoenix.query.Connecti

image - 将图像存储在 HBASE 中以供处理和快速访问

我有大量的图片文件需要在HDFS上存储和处理让我们假设两种情况:图片小于5MB图片大小从50KB到20MB我想用图像做4件事:我需要对每个图像独立应用一些函数fnc()。我需要不时地(1000次/天)从HDFS中提取特定图像并将其显示在网站上。这些是用户对特定图像的查询,因此延迟应该是几秒钟。每年必须删除一组图像。系统将添加新图片(1000张新图片/天)IMO应考虑的解决方案设计:小文件问题:MR处理快速访问文件快速写入新文件不是什么大问题,因为图像不会立即使用。延迟几分钟或几小时都可以。我的第一个想法是聚合图像以解决小文件问题,这满足了1和2。但我只剩下快速随机访问图像问题和添加新图

hadoop - Cloudera hadoop : not able to run Hadoop fs command and at same time HBase is not able to create directory on HDFS?

我已经启动并运行了6个节点的cloudera5.0beta集群但是我无法使用命令查看hadoopHDFS的文件和文件夹sudo-uhdfshadoopfs-ls/在输出中它显示了linux目录的文件和文件夹。尽管namenodeUI正在显示文件和文件夹。在HDFS上创建文件夹时出现错误sudo-uhdfshadoopfs-mkdir/testmkdir:`/test':Input/outputerror由于此错误,hbase未启动并关闭并出现以下错误:Unhandledexception.Startingshutdown.java.io.IOException:Exceptioninm

java - 将 1GB 数据加载到 hbase 需要 1 小时

我想将1GB(1000万条记录)的CSV文件加载到Hbase中。我为此编写了Map-Reduce程序。我的代码运行良好,但需要1小时才能完成。LastReducer花费了半个多小时的时间。谁能帮帮我?我的代码如下:驱动.Javapackagecom.cloudera.examples.hbase.bulkimport;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.ap