HBASE_CLASSPATH

hadoop - 在 hbase 中导入导出表时找不到文件异常

我正在运行这个命令"hbaseorg.apache.hadoop.hbase.mapreduce.Driverexport'temp'/dump"但我遇到异常实际上我必须导出表并导入到不同的数据库中。2016-06-1517:56:49,365WARN[main]util.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable2016-06-1517:56:49,463INFO[main]mapreduce.Export:vers

scala - 使用 Oozie 将 Spark 转为 Hbase

我试图从Spark在Hbase中创建一个表并插入数据，从中读取数据。当我从命令行运行spark作业时它工作正常。但是，每次我尝试使用oozie运行它时，它都会抛出不同类型的异常。这是我的sparkhbase代码valsc=newSparkContext("local","Hbasespark")valtableName="Morbidity_Dummy2"valconf=HBaseConfiguration.create()//AddlocalHBaseconfconf.addResource(newPath("file:///opt/cloudera/....../hbase-sit

转为 scala hbase 34 apache hadoop apache-spark oozie

hadoop - HBase 预拆分和最大区域大小

我无法找到问题的答案:我想预拆分HBase表，例如在5个地区。我已将配置中的最大文件大小设置为10GB。(当然只是例子)。如果我将所有5个区域都填满表怎么办？HBase会为此创建第6个区域吗？我发现它会自动分成2个区域，但我需要确定和一些解释。感谢大家的回答。最佳答案让我们首先讨论一下预拆分。仅当我们知道键的分布时才推荐使用，否则如果数据中存在任何偏差，预拆分可能会导致数据负载不均匀。这是Hbase用于自动和可配置的表分片的一般性质。从ClouderaHbase站点引用:-无论是否使用预分割，当一个区域达到一定限度时，它会自动分

hadoop HBase section HTableDescriptor apache-hbase-region-splitting-and bigdata cloudera-cdh

apache-spark - 执行 hbase 扫描时出现异常

我正在尝试hbasesparkdistributedscanexample.我的简单代码如下所示:publicclassDistributedHBaseScanToRddDemo{publicstaticvoidmain(String[]args){JavaSparkContextjsc=getJavaSparkContext("hbasetable1");ConfigurationhbaseConf=getHbaseConf(0,"","");JavaHBaseContextjavaHbaseContext=newJavaHBaseContext(jsc,hbaseConf);Sca

时出 apache-spark apache hbase hadoop apache-zookeeper

apache-spark - spark 谓词下推不适用于 phoenix hbase 表

我正在处理spark-hive-hbase集成。这里使用phoenixhbase表进行集成。Phoenix:**apache-phoenix-4.14**HBase:**hbase-1.4**spark:**spark-2.3**hive:**1.2.1**我正在使用sparkthrift服务器并使用jdbc访问表。我测试的几乎所有基本功能都运行良好。但是当我从spark提交查询时，它会在没有where条件的情况下提交给phoenix并且所有过滤都发生在spark端。如果表有数十亿的数据，我们就不能这样做。示例:Input-query:select*fromhive_hbasewher

spark apache-spark section strong hadoop hive hbase apache-phoenix

java - 如果我们在运行时在 HBase 中创建 namespace 和表，它会影响应用程序的性能吗？

我们正在运行时创建命名空间和多个表(5到6个)，创建整个结构需要10-15秒。推荐在HBase中运行时建表吗？最佳答案通常不建议在应用程序代码中创建HBase表或在运行时更改列族。首先，除非您明确告诉客户，否则客户不知道表何时准备好写入和读取。这可能会使您的系统更加复杂。同时，系统的整体可用性存在问题，例如进行ColumnFamily修改时必须禁用表。其次，HBase故事的模式对性能和功能非常重要。它需要精心设计，并且在用户的应用程序读写表之前应该很好地理解它。但是，如果1.您预先有非常清晰的模式设计，并且2.创建表的代码是由预

中创 namespace section HBase java hadoop namespaces

java - hbase Regionserver 启动，zookeeper 启动但 hmaster 未启动(regionserver.HRegionServer : Failed construction RegionServer)

Hbasezookeeper启动，regionserver在多节点集群上启动，但hmaster未启动并生成以下日志文件。hbase-site.xml快照hbase.masternamenode:60000hbase.rootdirhdfs://namenode:9001hbase.cluster.distributedtruehbase.zookeeper.quorumdatanodehbase.zookeeper.property.dataDir/hadoop2/zookeeperhbase.zookeeper.property.clientPort2181两台机器datanod

HRegionServer Regionserver hbase hadoop java hdfs apache-zookeeper

hadoop - HBase "between"过滤器

我正在尝试使用过滤器列表检索范围内的行，但没有成功。下面是我的代码片段。我想检索1000到2000之间的数据。HTabletable=newHTable(conf,"TRAN_DATA");Listfilters=newArrayList();SingleColumnValueFilterfilter1=newSingleColumnValueFilter(Bytes.toBytes("TRAN"),Bytes.toBytes("TRAN_ID"),CompareFilter.CompareOp.GREATER,newBinaryComparator(Bytes.toBytes("10

amp between SingleColumnValueFilter toBytes Bytes hadoop hbase

hadoop - 数据版本控制(Hadoop、HDFS、Hbase 后端)

我想知道如何在Hadoop/HDFS/Hbase中对数据进行版本控制。它应该是您模型的一部分，因为很可能会发生变化(大数据是长时间收集的)。HDFS(基于文件的后端)的主要示例。sample-log-file.log:timestampx1y1z1...timestampx2y2z2...我现在想知道在哪里添加版本控制信息。我看到2个备选方案:文件格式内的版本日志文件.log:timestampV1x1y1z1...timestampV2w1x2y2z1...文件名中的版本*log-file_V1.log*timestampx1y1z1...*日志文件_V2.log*timestamp

hadoop section timestamp code mapreduce versioning hbase bigdata

hadoop - 如何通过 StarGate REST API 向 HBase 中插入数据

根据StarGate文档，CURL命令应该如下所示:%curl-H"Content-Type:text/xml"--data'[...]'http://localhost:8000/test/testrow/test:testcolumn这就是我正在尝试的:%curl-XPOST-H"Accept:text/xml"--data'[d29ya2Vk]'http://localhost:8080/test/row1/title不断收到HTTP415，不支持的媒体类型..知道我在那里遗漏了什么吗？最佳答案您当前的curl选项指定您想

StarGate hadoop section code Content-Type hbase

22 23 242526 27 28