草庐IT

java - 使用 Spark 和 JAVA 从 HBase 读取数据

我想使用JAVA通过Spark访问HBase。除了this之外,我还没有找到任何例子一。答案中写着,YoucanalsowritethisinJava我从Howtoreadfromhbaseusingspark复制了这段代码:importorg.apache.hadoop.hbase.client.{HBaseAdmin,Result}importorg.apache.hadoop.hbase.{HBaseConfiguration,HTableDescriptor}importorg.apache.hadoop.hbase.mapreduce.TableInputFormatimpo

rest - 它是 Hbase REST API `get version/cluster` 中的错误吗?

HbaseRESTAPI,此接口(interface)get'version/cluster',当我使用headerAccept:application/json时,响应不是JSON而是纯文本。curl-XGET\-H"Accept:application/json"\"http://localhost:8888/version/cluster"#"1.2.2"但是当我使用Accept:text/xml时,响应是正确的XML。curl-XGET\-H"Accept:text/xml"\"http://localhost:8888/version/cluster"#1.2.2

java - SPARK 转 HBase 写入

我的SPARK程序中的流程如下:Driver-->Hbaseconnectioncreated-->BroadcasttheHbasehandle现在从执行者那里,我们获取这个句柄并尝试写入hbase在驱动程序中,我正在创建HBaseconf对象和连接对象,然后通过JavaSPARK上下文广播它,如下所示:SparkConfsparkConf=JobConfigHelper.getSparkConfig();Configurationconf=newConfiguration();UserGroupInformation.setConfiguration(conf);jsc=newJa

hadoop - HBase 到 Hive 映射表未显示完整数据

我们有一个包含1个列族的HBase表,其中有15亿条记录。使用命令检索HBase行数"count''",{CACHE=>1000000}.HBase到Hive的映射是用下面的命令完成的。createexternaltablestagingdata(rowkeyString,col1String,col2String)STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITHSERDEPROPERTIES('hbase.columns.mapping'=':key,n:col1,n:col2,')TBLPROPERTIES

hadoop - 由于 HDP 2.5 中的 Solr 异常,Hbase java 代码在表创建时卡住 - SolrServers 可用于处理此请求

我正在尝试使用javaAPI将其与hbase连接。我在192.168.56.101本地运行HortonworksSandbox(HDP2.5)。以下是我的java代码importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.client.HTable;importorg.apache.hadoop.hbase.client.Put;importorg.

hadoop - hbase 跳过区域服务器直接从 hfile 读取行

我正试图将超过100亿条记录转储到hbase中,这将平均每天增长1000万,然后尝试一个完整的表扫描记录。我知道对hdfs进行全面扫描会比hbase快。Hbase用于对不同的数据进行排序在高清文件系统上。该应用程序正在使用spark构建。数据被批量加载到hbase中。由于各种2G限制,区域大小从3G的初始测试减少到1.2G(仍然需要更详细的调查)。扫描缓存为1000且缓存block关闭hbase总大小在6TB范围内,在5个区域服务器(节点)上产生数千个区域。(建议低百)。Spark作业基本上运行每一行,然后根据范围内的列计算某些内容。使用内部使用TableInputFormat的spa

hadoop - thrift 在我的 HBase master 上运行吗?如何与Happybase连接?

我正在以伪分布式模式运行krejcmat/hadoop-hbasedocker。那就是主从在同一台机器上的不同容器中运行。启动Hadoop集群和HBase后,我在主节点上启动thrift服务器:hbasethriftstart-threadpool我还公开了节点9090(以--expose=9090开头的默认Thrift端口)。我想使用Happybase库通过ThriftAPI从我的主机连接到Hadoop集群中运行的Hbase。这是我使用的命令:connection=happybase.Connection('hadoop-hbase-master',9090)但我收到错误:TTran

hadoop - HBase 组件没有出现在 Pentaho Kettle 中

我正在尝试与Pentaho合作,以构建一些大数据解决方案。但是HadoopHBase组件并未出现在仪表板中。我不明白为什么HBase没有出现,因为HBase正在我的机器上运行......我一直在寻找解决方案,但没有成功...... 最佳答案 请检查此属性值'hbase.client.scanner.timeout.period'在hbase-default.xml中设置为10分钟以消除hbase异常。检查你在pentaho数据集成工具的hbase输出主机中是否添加了zookeeper主机。你读过这个wiki吗?为了将hbase数据加

hadoop - 如何使用条件(Where 子句)从 HBase 执行简单选择

我从以下来源创建了以下简单表格:https://hortonworks.com/hadoop-tutorial/introduction-apache-hbase-concepts-apache-phoenix-new-backup-restore-utility-hbase/#start-hbase使用以下内容:create'driver_dangerous_event','events'put'driver_dangerous_event','4','events:driverId','78'put'driver_dangerous_event','4','events:drive

hadoop - HBase 区域服务器崩溃

我正在尝试创建大约589个表并进行随机插入。我开始逐表处理:所以我创建一个表,然后进行所有插入,然后创建另一个表,直到所有数据都被摄取。这个解决方案的架构是:Python客户端位于一台机器上,它使用数据摄取HBase。托管HBase的Cloudera服务器独立配置,这是一个与客户端位于同一台机器上的虚拟机,由其IP地址标识。该服务器的特性如下:64GB存储空间、4GBRAM和1个CPU。客户端与HBaseThrift服务器通信。所以这里的问题是,当我尝试摄取所有这些数据量时。在区域服务器关闭之前,客户端只能创建和插入大约300MB(大约创建了45个表并插入了相应的行,然后服务器在第46