草庐IT

Hbase调优:HBase 调整 Java 垃圾收集算法

​本文整理来自英特尔Java性能架构师EricKaczmarek探讨了如何针对100%YCSB读取调整ApacheHBase的Java垃圾回收(GC)背景:企业HbaseGC时间长,造成Hbase请求超时。ApacheHBase是一个提供NoSQL数据存储的Apache开源项目。HBase通常与HDFS一起使用,在世界范围内被广泛使用。知名用户包括Facebook、Twitter、Yahoo等。从开发人员的角度来看,HBase是一个“分布式、版本化、非关系型数据库,仿照Google的Bigtable,一个用于结构化数据的分布式存储系统”。HBase可以通过纵向扩展(即部署在更大的服务器上)或横

【云原生】HBase on K8s 编排部署讲解与实战操作

一、概述HBase 是一个面向列式存储的分布式数据库,其设计思想来源于Google的BigTable论文。HBase底层存储基于HDFS实现,集群的管理基于ZooKeeper实现。HBase良好的分布式架构设计为海量数据的快速存储、随机访问提供了可能,基于数据副本机制和分区机制可以轻松实现在线扩容、缩容和数据容灾,是大数据领域中Key-Value数据结构存储最常用的数据库方案。官方文档:https://hbase.apache.org/book.htmlGitHub地址:https://github.com/apache/hbase关于更多hbase的介绍,也可以参考我这篇文章:列式存储的分布

【云原生】HBase on K8s 编排部署讲解与实战操作

一、概述HBase 是一个面向列式存储的分布式数据库,其设计思想来源于Google的BigTable论文。HBase底层存储基于HDFS实现,集群的管理基于ZooKeeper实现。HBase良好的分布式架构设计为海量数据的快速存储、随机访问提供了可能,基于数据副本机制和分区机制可以轻松实现在线扩容、缩容和数据容灾,是大数据领域中Key-Value数据结构存储最常用的数据库方案。官方文档:https://hbase.apache.org/book.htmlGitHub地址:https://github.com/apache/hbase关于更多hbase的介绍,也可以参考我这篇文章:列式存储的分布

Hive 大表数据导入 HBase

本文简单介绍HBase的数据导入工具ImportTSV。通过一次将hive大表导入HBase的实战案例,梳理期间遇到的问题,调研更优的导入方式。本文着重关注:如何借助ImportTSV工具将数据(文件:tsv、csv、hive表)导入HBase,有哪些坑需要考虑?HBase如何建表,如何创建预分区?Hive数据导入HBase是否有其他方式,更有的方式?1ImportTSV介绍ImportTsv是HBase提供的一个命令行工具,将存储在HDFS上的数据文件,通过指定的分隔符解析后,导入到HBase表中。(TSV:Tab-separatedvalues)这样的方式导入数据与正常写入流程不同的是,跳

Hive 大表数据导入 HBase

本文简单介绍HBase的数据导入工具ImportTSV。通过一次将hive大表导入HBase的实战案例,梳理期间遇到的问题,调研更优的导入方式。本文着重关注:如何借助ImportTSV工具将数据(文件:tsv、csv、hive表)导入HBase,有哪些坑需要考虑?HBase如何建表,如何创建预分区?Hive数据导入HBase是否有其他方式,更有的方式?1ImportTSV介绍ImportTsv是HBase提供的一个命令行工具,将存储在HDFS上的数据文件,通过指定的分隔符解析后,导入到HBase表中。(TSV:Tab-separatedvalues)这样的方式导入数据与正常写入流程不同的是,跳

Hadoop、Hbase、Hive三者关系

Hadoop本质上是:分布式文件系统(HDFS)+分布式计算框架(Mapreduce)+调度系统Yarn搭建起来的分布式大数据处理框架。Hive:是一个基于Hadoop的数据仓库,适用于一些高延迟性的应用(离线开发),可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能。Hive可以认为是MapReduce的一个包装,把好写的HQL转换为的MapReduce程序,本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表是纯逻辑表。hive需要用到hdfs存储文件,需要用到MapReduce计算框架。HBase:是一个Hadoop的数据库,一个分布式、可扩展

Hadoop、Hbase、Hive三者关系

Hadoop本质上是:分布式文件系统(HDFS)+分布式计算框架(Mapreduce)+调度系统Yarn搭建起来的分布式大数据处理框架。Hive:是一个基于Hadoop的数据仓库,适用于一些高延迟性的应用(离线开发),可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能。Hive可以认为是MapReduce的一个包装,把好写的HQL转换为的MapReduce程序,本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表是纯逻辑表。hive需要用到hdfs存储文件,需要用到MapReduce计算框架。HBase:是一个Hadoop的数据库,一个分布式、可扩展

移动云使用 JuiceFS 支持 Apache HBase 增效降本的探索

作者简介:陈海峰,移动云数据库ApacheHBase开发人员,对ApacheHBase、RBF、ApacheSpark有浓厚兴趣。背景ApacheHBase是ApacheHadoop生态体系中的大规模、可扩展、分布式的数据存储服务。同时它还是NoSQL数据库。它的设计初衷是为包含了数百万列的数十亿行记录提供随机的、强一致性的实时查询。默认情况下,HBase的数据会保存在HDFS上,HBase为HDFS做了很多优化来保证稳定性与性能。但是维护HDFS本身一点也不轻松,要不断进行监控、运维、调优、扩容、灾难恢复等一系列事情,而且在公有云上搭建HDFS的费用也是相当高的。为了节省费用、降低维护成本,

移动云使用 JuiceFS 支持 Apache HBase 增效降本的探索

作者简介:陈海峰,移动云数据库ApacheHBase开发人员,对ApacheHBase、RBF、ApacheSpark有浓厚兴趣。背景ApacheHBase是ApacheHadoop生态体系中的大规模、可扩展、分布式的数据存储服务。同时它还是NoSQL数据库。它的设计初衷是为包含了数百万列的数十亿行记录提供随机的、强一致性的实时查询。默认情况下,HBase的数据会保存在HDFS上,HBase为HDFS做了很多优化来保证稳定性与性能。但是维护HDFS本身一点也不轻松,要不断进行监控、运维、调优、扩容、灾难恢复等一系列事情,而且在公有云上搭建HDFS的费用也是相当高的。为了节省费用、降低维护成本,