HBASE

apache-spark - spark 谓词下推不适用于 phoenix hbase 表

我正在处理spark-hive-hbase集成。这里使用phoenixhbase表进行集成。Phoenix:**apache-phoenix-4.14**HBase:**hbase-1.4**spark:**spark-2.3**hive:**1.2.1**我正在使用sparkthrift服务器并使用jdbc访问表。我测试的几乎所有基本功能都运行良好。但是当我从spark提交查询时，它会在没有where条件的情况下提交给phoenix并且所有过滤都发生在spark端。如果表有数十亿的数据，我们就不能这样做。示例:Input-query:select*fromhive_hbasewher

java - 如果我们在运行时在 HBase 中创建 namespace 和表，它会影响应用程序的性能吗？

我们正在运行时创建命名空间和多个表(5到6个)，创建整个结构需要10-15秒。推荐在HBase中运行时建表吗？最佳答案通常不建议在应用程序代码中创建HBase表或在运行时更改列族。首先，除非您明确告诉客户，否则客户不知道表何时准备好写入和读取。这可能会使您的系统更加复杂。同时，系统的整体可用性存在问题，例如进行ColumnFamily修改时必须禁用表。其次，HBase故事的模式对性能和功能非常重要。它需要精心设计，并且在用户的应用程序读写表之前应该很好地理解它。但是，如果1.您预先有非常清晰的模式设计，并且2.创建表的代码是由预

中创 namespace section HBase java hadoop namespaces

java - hbase Regionserver 启动，zookeeper 启动但 hmaster 未启动(regionserver.HRegionServer : Failed construction RegionServer)

Hbasezookeeper启动，regionserver在多节点集群上启动，但hmaster未启动并生成以下日志文件。hbase-site.xml快照hbase.masternamenode:60000hbase.rootdirhdfs://namenode:9001hbase.cluster.distributedtruehbase.zookeeper.quorumdatanodehbase.zookeeper.property.dataDir/hadoop2/zookeeperhbase.zookeeper.property.clientPort2181两台机器datanod

HRegionServer Regionserver hbase hadoop java hdfs apache-zookeeper

hadoop - HBase "between"过滤器

我正在尝试使用过滤器列表检索范围内的行，但没有成功。下面是我的代码片段。我想检索1000到2000之间的数据。HTabletable=newHTable(conf,"TRAN_DATA");Listfilters=newArrayList();SingleColumnValueFilterfilter1=newSingleColumnValueFilter(Bytes.toBytes("TRAN"),Bytes.toBytes("TRAN_ID"),CompareFilter.CompareOp.GREATER,newBinaryComparator(Bytes.toBytes("10

amp between SingleColumnValueFilter toBytes Bytes hadoop hbase

apache - Hadoop生态系统部署步骤

我正在尝试在一个集群中设置来自ApacheHadoop堆栈的所有项目。设置apachehadoop生态系统框架的顺序是什么？例如:Hadoop、HBase、...而且，如果您使用一些特定的步骤进行测试，您可以判断在部署过程中会遇到什么样的问题。部署的主要框架(Hadoop、HBase、Pig、Hive、HCatalog、Mahout、Giraph、ZooKeeper、Oozie、avro、sqoop、mrunit、crunch，如有遗漏请补充) 最佳答案有不同的顺序，因为并非所有列出的产品都是相关的。简而言之:1.Hadoop(H

系统部 apache section Hadoop HBase deployment configuration mapreduce

hadoop - 数据版本控制(Hadoop、HDFS、Hbase 后端)

我想知道如何在Hadoop/HDFS/Hbase中对数据进行版本控制。它应该是您模型的一部分，因为很可能会发生变化(大数据是长时间收集的)。HDFS(基于文件的后端)的主要示例。sample-log-file.log:timestampx1y1z1...timestampx2y2z2...我现在想知道在哪里添加版本控制信息。我看到2个备选方案:文件格式内的版本日志文件.log:timestampV1x1y1z1...timestampV2w1x2y2z1...文件名中的版本*log-file_V1.log*timestampx1y1z1...*日志文件_V2.log*timestamp

hadoop section timestamp code mapreduce versioning hbase bigdata

hadoop - 如何通过 StarGate REST API 向 HBase 中插入数据

根据StarGate文档，CURL命令应该如下所示:%curl-H"Content-Type:text/xml"--data'[...]'http://localhost:8000/test/testrow/test:testcolumn这就是我正在尝试的:%curl-XPOST-H"Accept:text/xml"--data'[d29ya2Vk]'http://localhost:8080/test/row1/title不断收到HTTP415，不支持的媒体类型..知道我在那里遗漏了什么吗？最佳答案您当前的curl选项指定您想

StarGate hadoop section code Content-Type hbase

java - 远程运行 Hbase ImportTSV 作业

我正在尝试运行HBaseimportTSVhadoop作业以将数据从TSV文件加载到HBase。我正在使用以下代码。Configurationconfig=newConfiguration();Iteratoriter=config.iterator();while(iter.hasNext()){Objectobj=iter.next();System.out.println(obj);}Jobjob=newJob(config);job.setJarByClass(ImportTsv.class);job.setJobName("ImportTsv");job.getConfigu

ImportTSV Hbase section hadoop 中运 java

hadoop - 什么影响Hbase性能

我是HBase的初学者。我目前不确定是什么影响了HBase的性能。首先，我以独立模式运行Hbase。我用单机运行Mapreduce程序处理200万文本行，并将结果输出到存储在本地文件系统中的HBase表中。大约用了1小时40分钟。然后我改成了伪分布式模式。Htable文件然后存储在HDFS中。包括程序在内的所有其他内容保持不变。然后花了3个多小时!!我完全糊涂了。谁能告诉我为什么会这样？另一个问题，因为我在一台不是很强大的Linux机器上创建了5个虚拟机作为虚拟集群(8G内存。3GHz4核CPU)。当我一个月前运行Mapreduce程序时，我发现在单个主服务器或5个以上的从服务器上运行

hadoop Hbase section strong mapreduce

hadoop - 你能知道有多少输入值在 Hadoop 中有 reducer 而无需迭代它们吗？

我正在Hadoop中编写一个Reducer，我正在使用它的输入值来构建一个编码元素列表的字节数组。我写入数据的缓冲区大小取决于reducer接收到的值的数量。提前在内存中分配它的大小会很有效，但如果不使用“foreach”语句对其进行迭代，我不知道有多少值。Hadoop输出是一个HBase表。更新:使用映射器处理我的数据后，reducer键具有幂律分布。这意味着只有少数键具有很多值(最多9000)，但大多数键只有几个值。我注意到通过分配一个4096字节的缓冲区，97.73%的值都适合它。对于其余的，我可以尝试重新分配一个双倍容量的缓冲区，直到所有值都适合它。对于我的测试用例，这可以通过

reducer hadoop section mapreduce hbase

24 25 262728 29 30