草庐IT

HBASE_CLASSPATH

全部标签

hadoop - hbase 跳过区域服务器直接从 hfile 读取行

我正试图将超过100亿条记录转储到hbase中,这将平均每天增长1000万,然后尝试一个完整的表扫描记录。我知道对hdfs进行全面扫描会比hbase快。Hbase用于对不同的数据进行排序在高清文件系统上。该应用程序正在使用spark构建。数据被批量加载到hbase中。由于各种2G限制,区域大小从3G的初始测试减少到1.2G(仍然需要更详细的调查)。扫描缓存为1000且缓存block关闭hbase总大小在6TB范围内,在5个区域服务器(节点)上产生数千个区域。(建议低百)。Spark作业基本上运行每一行,然后根据范围内的列计算某些内容。使用内部使用TableInputFormat的spa

hadoop - thrift 在我的 HBase master 上运行吗?如何与Happybase连接?

我正在以伪分布式模式运行krejcmat/hadoop-hbasedocker。那就是主从在同一台机器上的不同容器中运行。启动Hadoop集群和HBase后,我在主节点上启动thrift服务器:hbasethriftstart-threadpool我还公开了节点9090(以--expose=9090开头的默认Thrift端口)。我想使用Happybase库通过ThriftAPI从我的主机连接到Hadoop集群中运行的Hbase。这是我使用的命令:connection=happybase.Connection('hadoop-hbase-master',9090)但我收到错误:TTran

hadoop - HBase 组件没有出现在 Pentaho Kettle 中

我正在尝试与Pentaho合作,以构建一些大数据解决方案。但是HadoopHBase组件并未出现在仪表板中。我不明白为什么HBase没有出现,因为HBase正在我的机器上运行......我一直在寻找解决方案,但没有成功...... 最佳答案 请检查此属性值'hbase.client.scanner.timeout.period'在hbase-default.xml中设置为10分钟以消除hbase异常。检查你在pentaho数据集成工具的hbase输出主机中是否添加了zookeeper主机。你读过这个wiki吗?为了将hbase数据加

hadoop - 如何使用条件(Where 子句)从 HBase 执行简单选择

我从以下来源创建了以下简单表格:https://hortonworks.com/hadoop-tutorial/introduction-apache-hbase-concepts-apache-phoenix-new-backup-restore-utility-hbase/#start-hbase使用以下内容:create'driver_dangerous_event','events'put'driver_dangerous_event','4','events:driverId','78'put'driver_dangerous_event','4','events:drive

hadoop - HBase 区域服务器崩溃

我正在尝试创建大约589个表并进行随机插入。我开始逐表处理:所以我创建一个表,然后进行所有插入,然后创建另一个表,直到所有数据都被摄取。这个解决方案的架构是:Python客户端位于一台机器上,它使用数据摄取HBase。托管HBase的Cloudera服务器独立配置,这是一个与客户端位于同一台机器上的虚拟机,由其IP地址标识。该服务器的特性如下:64GB存储空间、4GBRAM和1个CPU。客户端与HBaseThrift服务器通信。所以这里的问题是,当我尝试摄取所有这些数据量时。在区域服务器关闭之前,客户端只能创建和插入大约300MB(大约创建了45个表并插入了相应的行,然后服务器在第46

python - 如何在python中批量加载数据到hbase

我用python编写了一个MR作业,通过流jar包运行。我想知道如何使用批量加载将数据放入HBase。我知道有两种方法可以通过批量加载将数据导入hbase。在MR作业中生成HFile,并使用CompleteBulkLoad将数据加载到hbase。使用ImportTsv选项,然后使用CompleteBulkLoad加载数据。不知道怎么用python生成HFile来适配Hbase。然后我尝试使用ImportTsv实用程序。但是失败了。我遵循了这个[示例]中的说明(http://hbase.apache.org/book.html#importtsv).但我有异常(exception):Ex

hadoop - phoenix hbase 表预拆分,同一区域有多个拆分点

我正在使用apachephoenix4.9.1和hbase-1.1.2。为了预拆分表,我在创建表时使用了以下选项拆分(0,1,2,3,4,5,6,7,8,9,10)1)isitpossibletosplit(0&1,2&3,4&5,5&6,6&7,8&9)likethis?2)itriedmergingtheregionsmanuallyusinghbaseshell.ifimergeapresplittableto(0&1,2&3,4&5,5&6,6&7,8&9)whetheritwillcontainthepresplitinfoofbothregions?

hadoop - sqoop可以同时向hive和hbase写入数据吗

我们可以在hadoop中将sqoop数据写入hive和hbase吗想把sqoop写到hive(rdbms)和hbase(NoSql)一起 最佳答案 不,它不能。如果您希望数据显示在Hive和HBase中,则必须将其导入两个不同的位置,在其中一个位置创建配置单元表以供在Hive中使用。在第二个位置,您将必须创建一个具有HBaseSerDe属性的外部Hive表。IntegratingHiveandHBase.此链接将为您提供所需的步骤。 关于hadoop-sqoop可以同时向hive和hba

hadoop - HBase 使用 SingleColumnValueFilter 过滤行

我有一个HBase表,其中有一个列限定符,它将创建的时间存储为long(转换为字节数组)。我需要通过过滤创建时间在指定日期之间的所有行来计算行数。下面是我的java代码。intcount=0;SimpleDateFormatdateFormat=newSimpleDateFormat("YYYY-MM-DD");HTabletable=(HTable)connection.getTable(TableName.valueOf(tableName));longstartTime=dateFormat.parse(startDate).getTime();longendTime=dateF

java - 使用 Java 在 Hbase 中使用过滤器获取固定行

在我的应用程序中,我需要从Hbase获取数据,我需要对该数据应用过滤器,我需要限制要获取的记录数。下面是我写的代码:ResultScannerscanner=null;HTabletable=null;Configurationconfig=HBaseConfiguration.create();config.set("hbase.zookeeper.quorum",hbaseServer);config.set("hbase.zookeeper.property.clientPort",hbasePort);FilterListlist=newFilterList(FilterLis