草庐IT

HBASE_CLASSPATH

全部标签

scala - 如何配置 Spark Streaming Scala 应用程序以从 Hadoop + Yarn 上的 HBase 读取

Spark、Hadoop+Yarn上的Hbase,我想从使用SBT构建的Scala应用程序读取和写入HBase。我无法创建HBaseScala应用程序:/usr/local/sparkapps/HBaseWordCount/src/main/scala/com/mydomain/spark/hbasewordcount/HbaseWordCount.scalapackagecom.mydomain.spark.hbasewordcountimportorg.apache.spark._importorg.apache.spark.streaming._importorg.apache.

hadoop - Hbase 导出不会复制到本地文件系统

我在hbase表中有一些数据。我必须备份它。我使用的是0.94.18版本。现在我已经使用以下命令进行导出。hbaseorg.apache.hadoop.hbase.mapreduce.Driverexporthbasetable/home/user/backup/现在实际发生的是数据被复制到hdfs,路径与我给定的完全相同。我希望这应该复制到我的本地文件系统,但事实并非如此。问题出在哪里?其次如何在hbase中备份表模式? 最佳答案 要了解您答案的第一部分,请查看HowtocopyHbasedatatolocalfilesystem

java - 在 hbase 中插入数据时运行 hadoop 作业

每当在hbase表上完成插入时,我都需要运行hadoop作业吗?有一些可用的调度器Apache软件公平调度器我可以根据自己的目的选择哪一个? 最佳答案 ApacheOozie是一个工作流调度器,用于设计作业工作流并协调它们在特定事件或控制流中设计时发生。Jobs可以是map-reduce、Streamingmap-reduce、Pig、Hive、Sqoop任务以及java程序和shell脚本。FairScheduler用作MapReduce作业的资源调度器。现在对于您的情况,您应该使用Oozie。

python - Hbase超时错误不断出现

我正在使用带有python的happybase访问Hbase。我有一个非常简单的函数:defconnect():connection=happybase.Connection('myhost',myport)table=connection.table('MY-TABLE')try:returnstr(table.row('my-row'))exceptExceptionasioe:returnstr(ioe)finally:connection.close()当我运行这个函数时,它可以正常工作几分钟,然后我开始收到超时错误。解决方法是进入Hbase控制台并打开一个新的thrift端口

hadoop - 获取 HBase 表所有者的命令

有没有什么命令可以获取hbase表的完整描述,如所有者、数据库、修改时间等。在hive中,我可以使用获取这些信息desc格式化表名但在hbase中desc'tablename'显示大小、版本、replication_scope等。我想获取hbase表的所有者详细信息。谢谢。 最佳答案 首先,在hbase-site.xml中添加accesscontrol相关配置:hbase.security.authorizationtruehbase.coprocessor.master.classesorg.apache.hadoop.hbase

hadoop - 如何在 hive create table "TBLPROPERTIES"中引用 HBase 命名空间

我正在尝试使用HBase表('test_table)作为源创建Hive外部表。HBase表是在HBase命名空间“test_namespace”下创建的。在应用程序的其他部分,我使用以下语法访问表test_namespace:test_table或hbase://test_namespace:test_table按照同样的方法我创建了一个配置单元脚本CREATEEXTERNALTABLEIFNOTEXISTSTEST_INDIVIDUAL(keystring,teststring,photostring,locationstring)STOREDBY'org.apache.hadoop

hadoop - HBase:获取带有时间戳的行数据请求

我通过JavaAPI创建了一个HBase表,并通过Put添加了数据。我还可以使用相应的Get读取Java中的数据。HBase文档说单元格值也可以通过使用GET请求读取,例如在浏览器中,请参阅documentation.以下请求对我有用,它返回整行:http://my_hbase_url:12345/dm-table/exampleRow/family:html?v=1结果是一个xml,如下所示:PGh0bWw+Li4uTXkgSFRNTC4uLjwvaHRtbD4=如果您查看时间戳,它是1466667016879,但是当我调用http://my_hbase_url:12345/dm-t

hadoop - 为什么我们创建RDD来保存Hbase中的数据?还有其他方法可以在 Hbase 中保存数据吗?

我对大数据、Hadoop和Spark完全陌生。我来自Java背景。所以我试图理解为什么人们总是创建RDD来将数据集保存在HBASE中。谁能详细告诉我一下。还有其他方法吗? 最佳答案 在Spark中,一切都归结为RDD。即包括数据框。AFAIK,Spark和hbase没有其他选择,如果您使用spark作为分布式框架通过RDD实现其目标,不可变分区容错由粗粒度操作创建延迟评估可以持久化不变性和分区RDD由分区的记录集合组成。分区是RDD中并行的基本单元,每个分区是数据的一个逻辑分区,分区是不可变的,是通过对现有分区进行一些转换而创建的。

hadoop - Hbase mapside join-其中一张表没有被读取?从 hbase 中读取正确的结果到 hbase

我正在尝试对位于Hbase中的两个表进行映射连接。我的目的是在hashmap中保留小表的记录并与大表进行比较,一旦匹配,再次将记录写入hbase中的表中。我使用Mapper和Reducer编写了类似的连接操作代码,它运行良好,两个表都在映射器类中被扫描。但是由于reducesidejoin根本没有效率,我只想在mapper端加入表。在下面的代码中,“commentedifblock”只是为了看到它总是返回false并且第一个表(小表)没有被读取。任何提示帮助表示赞赏。我正在使用HDP的沙箱。importjava.util.ArrayList;importjava.util.Arrays

java - 如何使用 TableMapReduceUtil 在 hbase 扫描器结果上运行 mapreduce

我的hbase表是这样的:key---------valueid1/blavalue1id1/blablavalue2id2/blavalue3id2/blablavalue4....有数百万个以id1开头的键和数百万个以id2开头的键。我想用mapReduce从hbase读取数据,因为有很多键以相同的ID和每个ID一张map是不够的。我更喜欢每个Id100个映射器我希望超过1个映射器将在已按id过滤的同一个scannerResult上运行。我阅读了TableMapReduceUtil并尝试了以下操作:Configurationconfig=HBaseConfiguration.cre