草庐IT

HBASE_CLASSPATH

全部标签

hadoop - 如何修复 Jython 和 HBase 中的 "ImportError: No module name apache"错误

我正在尝试运行以下Jython代码来扫描hbase表:importjava.langfromorg.apache.hadoop.hbaseimportTableName,HBaseConfigurationfromorg.apache.hadoop.hbase.clientimportConnection,ConnectionFactory,Result,ResultScanner,Table,Adminfromorg.apache.hadoop.confimportConfigurationconf=HBaseConfiguration.create()connection=Conn

hadoop - HBase数据丢失?缺少 HDFS 追加支持?在没有启用 HDFS 追加支持的情况下运行 HMaster?

我正在使用HBase。我已经安装并运行了分布式环境。但是在HMaster的接口(interface)页面中显示了警告:“您当前正在运行HMaster,但未启用HDFS追加支持。这可能会导致数据丢失”我该如何解决这个问题?如果我不用CDH3的hadoop呢?有人可以给我非常详细的说明吗?谢谢!!!! 最佳答案 正如您刚刚发现的,您不能(不应该)将Hadoop0.20.*的标准Apache版本与HBase一起使用,因为它缺少附加支持HDFS-200。没有支持追加的官方ASFHadoop版本。Cloudera的release是最简单的方法

indexing - HBase 是如何管理其索引的?

如果HDFS是只读的(或在基本场景中可追加),它如何维护有序索引?它是否将其索引存储在HDFS或一些永久存储中?[编辑]例如,假设我按此顺序添加了行FBAE。由于HDFS只能追加,我怀疑磁盘上行的顺序将与插入顺序相同。但它如何维护其索引或保持其键有序?-因为它存储key的区域是一次性写入的。 最佳答案 HBase没有索引。它具有有序键(大致相当于SQLServer中的聚集索引,或Oracle中的索引组织表,但没有b树),这些键使用有序分区和时间戳写入进行维护。当memstore达到特定(可配置)大小时,HFiles仅刷新到磁盘,你是

hadoop - 使用 PIG 将文件加载到 Hbase

文件内容:one,1two,2three,3文件位置:hdfs:/hbasetest.txtHbase中的表:create'mydata','mycf'pig脚本:A=LOAD'/hbasetest.txt'USINGPigStorage(',')as(strdata:chararray,intdata:long);STOREAINTO'hbase://mydata'USINGorg.apache.pig.backend.hadoop.hbase.HBaseStorage('mycf:intdata');我收到以下错误:在控制台上2012-03-1316:26:22,170[main]

hadoop - 在 Hbase 表上插入后重新计算某些列

有没有一种简单的方法可以在插入发生后重新计算一些值?我有一个包含多个列族的表,其中一个是统计列族。我想插入原始记录,而不是使用一些特定于HBase的工具来离线计算值-而不会阻止插入。假设我将一些文件放入hbase表中,并希望获得有关其中行数以及存储在那里的日期的信息。我一直在研究RegionObserver及其preGet方法。此解决方案有效,但恐怕它会阻止实际插入发生,直到计算完成。 最佳答案 使用postPut方法。可以看一下HBase的协处理器简介here 关于hadoop-在Hb

Hadoop/Hbase批量加载的性能提升

我正在通过hadoop多节点集群的importsv工具将1000万条记录加载到Hbase表中。现在这个任务需要5分钟。但我想知道如何提高它的性能。importtsv工具看起来根本不像使用缩减器。我想知道我是否可以强制它使用reducer,它可以提高性能或您认为可以提高性能的任何其他方式将不胜感激。谢谢。 最佳答案 使用HfileOutPutFormat、completeBulkLoadTool尝试Importtsv。 关于Hadoop/Hbase批量加载的性能提升,我们在StackOve

hadoop - 对HDFS、HBase和Hive的一些疑惑

我对Hadoop生态系统有几个疑问。渴望很好地理解这些概念。Hive表在哪里存储数据?对于Datawarehouse,我们是否需要在Hive和Hbase表中拥有相同的数据。我们如何从Hbase插入、更新和读取数据。HDFS可以存储除csv之外的所有文件格式。我们可以在Hbase上安装PIG吗?如果我有Hive,我可以省略Hbase表吗? 最佳答案 答案,按顺序:Hive通常将数据存储在其配置的文件系统目录下的表名目录中,通常是/user/hive/warehouse的HDFS目录,可通过hive-site.xml进行调整hive.m

sql-server - 从sql server导入数据到hbase

我知道Sqoop允许我们将数据从RDBMS导入HDFS。我想知道sqoop中的sqlserverconnector是否也允许我们直接将其导入到HBase中?我知道我们可以用mysql做到这一点。我想知道是否也可以用sqlserver做同样的事情 最佳答案 我在Hortonworks沙箱中工作,我能够通过执行以下步骤将数据从SQLServer实例提取到HBase表中:将SQLServerJDBC驱动程序安装到Hadoop机器上。curl-L'http://download.microsoft.com/download/0/2/A/02

hadoop - Hbase:从独立模式迁移到全分布式模式

如果可能的话,我想在Hbase中从独立模式迁移到完全分布式模式。我有一些独立模式的数据,我想在迁移期间保留这些数据。请帮忙。 最佳答案 很老的问题,但最近我遇到了同样的问题并使用以下步骤解决了它:在独立模式下要迁移的导出表:bin/hbaseorg.apache.hadoop.hbase.mapreduce.Driverexporttable_name/local/path/table_name_backup在伪分布式/分布式模式下使用hadoop在hdfs中复制表:./bin/hadoopfs-copyFromLocal/loca

hadoop - 无法远程连接Hbase

我在机器A上以伪分布式的方式搭建了Hadoop和Hbase。我正在从机器B运行我的客户端(Java程序)。(机器A和B可以相互通信)。但我在这样做时遇到了问题。我的客户端代码如下所示:配置config=HBaseConfiguration.create();config.set("hbase.zookeeper.quorum",zookeeperLocation);config.set("hbase.zookeeper.property.clientPort","2181");HtablePooltablePool=newHTablePool(config,Integer.MAX_VA