草庐IT

HBASE_CLASSPATH

全部标签

hadoop - 如果你把东西存到HBase里,能直接从HDFS访问吗?

有人告诉我HBase是一个位于HDFS之上的数据库。但是假设您在将一些信息放入HBase之后使用了hadoop。您仍然可以使用mapreduce访问信息吗? 最佳答案 您可以使用mapreduce程序或hive查询或pig脚本读取HBase表的数据。Here是mapreduce的例子Here是Hive的示例。创建Hive表后,您可以在HBase表上运行select查询,这将使用mapreduce处理数据。您甚至可以轻松地将HBase表与其他Hadoop生态系统工具(例如Pig)集成。 关

hadoop - Spark 无法检索特定列中的所有 Hbase 数据

我的Hbase表有3000万条记录,每条记录都有raw:sample列,raw是columnfamilysample是column。这个栏目很大,大小从几KB到50MB不等。当我运行下面的Spark代码时,它只能得到4万条记录,但我应该得到3000万条记录:valconf=HBaseConfiguration.create()conf.set("hbase.zookeeper.quorum","10.1.1.15:2181")conf.set(TableInputFormat.INPUT_TABLE,"sampleData")conf.set(TableInputFormat.SCAN

hadoop - Hbase批量删除最快最有效的方法是什么

批量删除hbase记录最快最有效的方法是什么?Hbase客户端API还是MapReduce作业? 最佳答案 除非您知道要删除的单元格的行键,否则HBase客户端API不允许进行批量删除。可以利用BulkDeleteEndpoint根据扫描器的结果进行批量删除。 关于hadoop-Hbase批量删除最快最有效的方法是什么,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/3602718

hadoop - hadoop + hbase 设置的 docker-compose 问题

我已经为hadoop和hbase设置了docker容器,没有任何问题。我现在正尝试将它们放在一起并使用docker-compose按顺序运行它们。version:'2'services:hadoop:image:hadoop:2.6container_name:hadoop-composeports:-"50070:50070"hbase:image:hbase:0.98container_name:hbase-composeports:-"9000:9000"command:bash-c"while!nc-v-z-w3172.17.0.250070;doechowaitingforh

hadoop - Apache Kylin 无法找到 HBase 公共(public)库

我已经安装了Hadoop2.6.0版本,HBase0.99.0版本,Hive1.2版本,Kylin1.5.0版本。我在独立模式下设置了以上所有内容,同时在运行Kylin时它会在早期阶段检查Hadoop、HBase和Hive。一切都已安装,但是当我启动Kylin时,它给出了HBasecommonlibnotfound的错误。以下是ApacheKylin的日志。KYLIN_HOMEissettobin/../16/03/2418:02:16WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...

java - 使用 HBase MapReduce 将文件名作为行键插入

使用JavaAPI,我尝试将一些文件的内容Put()到HBase1.1.x。为此,我创建了WholeFileInput类(引用:UsingWholeFileInputFormatwithHadoopMapReducestillresultsinMapperprocessing1lineatatime)以使MapReduce读取整个文件而不是一行。但不幸的是,我不知道如何从给定的文件名中形成我的rowkey。例子:输入:文件123.txt文件-524.txt文件9577.txt...文件-“另一个数字”.txt我的HBase表上的结果:行----------------值123-----

java - 可以通过 Java API 连接到 HBase 但不能创建表

我正在尝试使用JavaAPI在HBase中创建一个表,我可以连接到Zookeeper2016-11-0615:18:36INFORecoverableZooKeeper:120-Processidentifier=hconnection-0x382db087connectingtoZooKeeperensemble=138.68.147.208:21812016-11-0615:18:36INFOZooKeeper:100-Clientenvironment:zookeeper.version=3.4.6-1569965,builton02/20/201409:09GMT2016-11

hadoop - 使用 Pig 将数据移动到 HBASE

我尝试在我的hbase中移动851数据,因为我使用以下命令创建了hbasecreate'customers','customers_data'我使用pig脚本移动文件。我的pig脚本是STOCK_A=LOAD'/user/cloudera/xxx'USINGPigStorage('|');data=FILTERSTOCK_ABY($0matches'.*MH.*');MH_DATA=FOREACHdataGENERATE$1,$3,$4;STOREMH_DATAinto'hbase://customers'USINGorg.apache.pig.backend.hadoop.hbase

java - MapReduce 扫描 HBase 时,Reducer 的个数始终为一个

我在Mapper中做HBase扫描,然后Reducer将结果写入HDFS。mapper输出的记录数大约为1,000,000,000条。问题是reducer的数量总是一个,尽管我设置了-Dmapred.reduce.tasks=100。reduce过程非常缓慢。//祝方泽编辑于2016-12-04我的主类代码:publicclassGetUrlNotSent2SpiderFromHbaseextendsConfiguredimplementsTool{publicintrun(String[]arg0)throwsException{Configurationconf=getConf()

hadoop - 覆盖 HBase id

当我向hbase表添加重复条目时会发生什么。碰巧看到列的更新时间戳。hbase中是否有任何属性可以选择在添加到表时避免/允许覆盖? 最佳答案 HBase客户端使用PUT来执行插入和更新行。根据提供的键,如果行键不存在则插入,如果存在则更新。HBase更新意味着将另一个版本添加到具有最新数据和时间戳的行。除非指定时间戳,否则读取(获取)将默认获取具有最新时间戳的数据。(PUT是幂等方法)。所以我认为没有任何属性(property)可以避免覆盖。也许您可以使用prePut协处理器来自定义某些行为。查看HBaseAPI文档以了解有关协处理