草庐IT

[含有环境搭建]一篇带你读懂HBase

Philosophy7 2023-08-01 原文

✅作者简介:大家好,我是Philosophy7?让我们一起共同进步吧!🏆 📃个人主页:Philosophy7的csdn博客
🔥系列专栏:
👑哲学语录: 承认自己的无知,乃是开启智慧的大门
💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博>主哦🤞


文章目录

一、HBase的介绍

HBase是一种构建在HDFS之上的分布式面向列的存储系统。隶属于Apache基金组织的一个子项目,Apache HBase是基于Google BigTable开源实现的。也就意味着,HBase支持海量数据的存储,而且还是一种NoSQL的一种数据库。

RDBMS(Relational DataBase Management System)关系型数据库它的优点在于:

  • 丰富的数据类型
  • 丰富的功能
  • 事务的支持
  • 随机读操作

缺点:

  • 不支持海量数据的存储
  • 结构单一、不易扩展
  • 读写性能较差

NoSQL:非关系型数据库

优点:

  • 稀疏性,容易节省存储空间
  • 键值对的方式存储
  • 海量数据的维护和处理非常轻松,成本低。
  • 速度快,效率高。 NoSQL 可以使用硬盘或者随机存储器作为载体,而关系型数据库只能使用硬盘。

缺点:

  • 非关系型数据库暂时不提供 SQL 支持,学习和使用成本较高。
  • 非关系数据库没有事务处理,无法保证数据的完整性和安全性。适合处理海量数据,但是不一定安全。
  • 功能不如关系型数据库丰富

1、面向行和面向列存储的对比

行存储数据

idnameagesex
1jack20
2tom29

列存储数据

id123
namejacktomrose
age231926

这两种存储的数据都是从上到下,从左到右排列的。

项目行存储列存储
优点写入效率高,提供数据完整性保证读取过程有冗余,适合数据定长的大数据计算
缺点数据读取有冗余,影响计算速度缺乏数据完整性保证,写入效率低
改进优化的存储格式,保证在内存中快速删除冗余数据多线程并行读写操作
应用场景商业领域、互联网互联网

数据模型

逻辑上,HBase 的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从 HBase 的底层物理存储结构(K-V)来看,HBase 更像是一个 multi-dimensional map多维映射

  • NameSpace:命名空间
    • 命名空间,类似于关系型数据库的 DatabBase 概念,每个命名空间下有多个表。HBase
      有两个自带的命名空间,分别是 hbase 和 default,hbase 中存放的是 HBase 内置的表,
      default 表是用户默认使用的命名空间。
  • Region
    • 类似于关系型数据库的表概念。不同的是,HBase 定义表时只需要声明列族即可,不需
      要声明具体的列。
  • Row : 行
    • HBase 表中的每行数据都由一个 RowKey 和多个 Column(列)组成,数据是按照 RowKey
      的字典顺序存储的,并且查询数据时只能根据 RowKey 进行检索,所以 RowKey 的设计十分重
      要。
  • Column:列
    • HBase 中的每个列都由 Column Family(列族)和 Column Qualifier(列限定符)进行限
      定,例如 info:name,info:age。建表时,只需指明列族,而列限定符无需预先定义。
  • TimeStamp:时间戳
    • 用于标识数据的不同版本(version),每条数据写入时,如果不指定时间戳,系统会
      自动为其加上该字段,其值为写入 HBase 的时间。
  • Cell : 单元格
    • 由{rowkey, column Family:column Qualifier, time Stamp} 唯一确定的单元。cell 中的数
      据是没有类型的,全部是字节码形式存贮。

2、逻辑模型

HBase是一种类似BigTable的分布式数据库,是一个稀疏的长期存储的(存储在硬盘上)多维度的排序的映射表,表的索引是行键、列关键字和时间戳,HBase中的数据都是字符串。类似于一种Json格式的字符串

行键时间戳列族info列族info2
1001Timestampinfo1:name=“zhangsan”info2:name=“lisi”
1002xxxxxxxxxinfo1:age=“23”info2:age=“29”

3、物理模型

在物理存储方面,仍然是按照列来存储数据的。

行键时间戳单元格(Value)
1001t1info1:namezhangsan
1001t2info1:age26
1002t1info1:namelisi
1002t2info1:age29

注意:在逻辑模型中有些列是空白的,这样的列实际不会被存储,当请求这些空白的单元格时会返回一个Null值。如果在查询的时候不提供时间戳,那么会返回距离现在最近的时间戳的版本数据,数据的存储按照时间戳来排序。

4、特点

非关系型数据库从严格意义上来说并不是数据库,而是一种数据结构化存储方法的集合。HBase作为一个NoSQL数据库,仅支持单行事务,通过不断增加集群中的节点数据量来增加计算能力,具有以下特点:

  • 容量巨大
    • HBase在纵向和横向上支持大数据量存储,一个表中可以有百亿行、百亿列
  • 面向列
    • HBase是面向列存储和权限控制,列能够独立检索。
  • 稀疏性
    • HBase是基于列存储的,不允许存储为空的列,因此是稀疏的,可以节省存储空间,增加存储量
  • 数据多版本
    • 每个单元格中可以有多个版本,默认情况下版本号是数据插入时的时间戳(1970年计算的秒单位)
  • 可扩展性
    • HBase的数据存文件储于HDFS上,由于HDFS具有动态增加节点的特性,所以HBase也能够实现集群的扩展。
  • 高性能:
    • WAL(Write Ahead Log,预写日志)机制保证了数据写入时因集群故障而导致数据丢失;HBase位于HDFS上,HDFS也有数据备份功能;同时HBase引入Zookeeper避免Master单点故障。
  • 数据类型单一:
    • Hbase中的数据都是字符串,没有其他类型

5、系统架构

HBase属于以主从架构,隶属于Hadoop生态系统,由以下组件组成:Client、Zookeeper、HMaster、HRegionServer和HResion。

  • Client:

    • 包含访问HBase的接口,使用RPC机制(远程调用)与HMaster和HResionServer进行通信
  • Zookeeper:

    • Hbase引入Zookeeper的主要原因就是为了防止单点故障。并起到一个协同服务。
  • HMaster

    • HBase中主要服务器,负责集群状态的管理维护。
    • 管理用户对表的增删改查也就是DDL
    • 为HRegionServer分配Region
    • 处理元数据的更新请求
  • HRegionServer

    • HRegionServer是集群当中具体对外提供服务的进程,主要负责维护Region的启动和管理,处理用户读写请求(DML操作)。
    • 一个HRegionServer包含多个Region
  • HRegion

    • 相对于关系型数据库中的表概念,HBase按照行键会进行表的切割操作,每个Region都记录了行键的起始和结尾。
    • HRegion负责和Client进行通信,实现数据的读写。

HMaster启动步骤:

  1. 首先从Zookeeper当中获取唯一代表HMaster的锁
  2. 扫描Zookeeper上所有的server的目录,获得当前的HRegionServer的列表
  3. 和扫描到的所有HRegionServer进行通信,获得当前已经分配的HRegion和HregionServer的关系
  4. 扫描元数据表和Region的集合,计算当前未分配的HRegion,将他们放入到待分配列表中

二、环境搭建

在进入环境搭建的环节,我们首先认识一下HBase的运行环境:

  • 独立式
    • 默认情况下使用的就是独立式的HBase。也就意味着HBase不会使用HDFS,而是使用本地的文件系统。
  • 分布式
    • 分布式可以分为伪分布式完全分布式。伪分布式模式的 HBase 就是在单个主机上运行的完全分布式模式。而对于完全分布式需要配置相关的文件。例如:``hbase.cluster.distributed属性设置为true`

1、解压tar包

tar -zxvf hbase-1.3.1-bin.tar.gz -C /usr/local/

重命名hbase

mv hbase-1.3.1/ hbase

2、HBase配置文件

hbase-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
 <property>
    <name>hbase.zookeeper.quorum</name>
    <value>master,slave1,slave2</value>
    <description>The directory shared by RegionServers.
    </description>
  </property>
  <property>
    <name>hbase.rootdir</name>
    <value>hdfs://master:8020/hbase</value>
    <description>The directory shared by RegionServers.
    </description>
  </property>
  <property>
    <name>hbase.cluster.distributed</name>
    <value>true</value>
    <description>The mode the cluster will be in. Possible values are
      false: standalone and pseudo-distributed setups with managed ZooKeeper
      true: fully-distributed with unmanaged ZooKeeper Quorum (see hbase-env.sh)
    </description>
  </property>
   <property>
    <name>hbase.zookeeper.property.dataDir</name>
    <value>/usr/local/zookeeper-3.4.5/zkData</value>
    <description>Property from ZooKeeper config zoo.cfg.
    The directory where the snapshot is stored.
    </description>
  </property>  
</configuration>                                                                             

hbase-env.sh

hbase-env.sh 文件中的以下行显示了如何设置JAVA_HOME环境变量(HBase 需要的)并将堆设置为 4 GB(而不是默认值 1 GB)。如果您复制并粘贴此示例,请务必调整JAVA_HOME以适合您的环境。

# The java implementation to use.  Java 1.7+ required.
export JAVA_HOME=/usr/local/jdk1.8.0_321

# Extra Java CLASSPATH elements.  Optional.
# export HBASE_CLASSPATH=

# The maximum amount of heap to use. Default is left to JVM default. 默认是1G 设置为4G
export HBASE_HEAPSIZE=4G

regionservers

在此文件中列出将运行 RegionServers 的节点,如果要配置本机名称,请将localhost注释掉

#localhost
master
slave1
slave2

3、使用scp发送给其他集群

scp -r /usr/local/hbase/ slave1:/usr/local/
scp -r /usr/local/hbase/ slave2:/usr/local/

4、启动HBase

启动Hadoop集群

cd $HADOOP_HOME
sbin/start-dfs.sh
sbin/start-yarn.sh

启动Zookeeper

#配置环境变量 直接启动 集群都要启动
zkServer.sh start

启动Hbase

bin/start-hbase.sh #启动
bin/stop-hbase.sh #关闭

启动成功后,http://master:16010访问HBase管理Web界面。

交互式界面

bin/hbase shell
#这里有一个恶心的点就是 光标停留在哪就删除哪 如果需要往前删除需要按住Ctrl键

基本操作

创建表

#可以使用help帮助命令查看
create 'student','info' # 后面的info是列族 可以声明多个列族

#插入数据
put 'student','1001','info:name','zhangsan'
put 'student','1001','info:age',29
#扫描全表查看数据
scan 'student'
#查看表详细信息
describe 'student'

有关[含有环境搭建]一篇带你读懂HBase的更多相关文章

  1. ruby-on-rails - 在 Rails 开发环境中为 .ogv 文件设置 Mime 类型 - 2

    我正在玩HTML5视频并且在ERB中有以下片段:mp4视频从在我的开发环境中运行的服务器很好地流式传输到chrome。然而firefox显示带有海报图像的视频播放器,但带有一个大X。问题似乎是mongrel不确定ogv扩展的mime类型,并且只返回text/plain,如curl所示:$curl-Ihttp://0.0.0.0:3000/pr6.ogvHTTP/1.1200OKConnection:closeDate:Mon,19Apr201012:33:50GMTLast-Modified:Sun,18Apr201012:46:07GMTContent-Type:text/plain

  2. Vscode+Cmake配置并运行opencv环境(Windows和Ubuntu大同小异) - 2

    之前在培训新生的时候,windows环境下配置opencv环境一直教的都是网上主流的vsstudio配置属性表,但是这个似乎对新生来说难度略高(虽然个人觉得完全是他们自己的问题),加之暑假之后对cmake实在是爱不释手,且这样配置确实十分简单(其实都不需要配置),故斗胆妄言vscode下配置CV之法。其实极为简单,图比较多所以很长。如果你看此文还配不好,你应该思考一下是不是自己的问题。闲话少说,直接开始。0.CMkae简介有的人到大二了都不知道cmake是什么,我不说是谁。CMake是一个开源免费并且跨平台的构建工具,可以用简单的语句来描述所有平台的编译过程。它能够根据当前所在平台输出对应的m

  3. HBase Region 简介和建议数量&大小 - 2

    Region是HBase数据管理的基本单位,region有一点像关系型数据的分区。region中存储这用户的真实数据,而为了管理这些数据,HBase使用了RegionSever来管理region。Region的结构hbaseregion的大小设置默认情况下,每个Table起初只有一个Region,随着数据的不断写入,Region会自动进行拆分。刚拆分时,两个子Region都位于当前的RegionServer,但处于负载均衡的考虑,HMaster有可能会将某个Region转移给其他的RegionServer。RegionSplit时机:当1个region中的某个Store下所有StoreFile

  4. ruby-on-rails - ruby gem如何在rails环境下工作 - 2

    我试图在rails中了解rubygems是如何变得可以自动使用的,而不是在使用required的文件中gem? 最佳答案 这是通过bundler/setup完成的:http://bundler.io/v1.3/bundler_setup.html.它在您的config/boot.rb文件中是必需的。简而言之,它首先将环境变量设置为指向您的Gemfile:ENV['BUNDLE_GEMFILE']||=File.expand_path('../../Gemfile',__FILE__)然后它通过要求bundler/setup将所有ge

  5. ruby-on-rails - 我需要一个真正的 UNIX RoR 开发环境 - 2

    从一开始,我就是一个Windows高手。我从MS-DOS开始。我安装了Windows2.1以及此后的所有Windows。现在,我家里有10台不同的Windows机器在运行,从Windows7Ultimate到各种版本的WindowsServer。我还没有完成Windows8,也不想去那里。我在服务器和各种软件方面都有UNIX经验,但它并不是我的首选环境。但是,我想我正在转换。我试图假装使用Cygwin和MSYS在Windows下运行UNIX。我的目的是搭建一个开发环境。两者都让我失望了。我花了比开发更多的时间来解决一系列技术问题。这是NotAcceptable。到目前为止,我的Ruby

  6. ruby-on-rails - 如果特定语言环境中缺少翻译,如何配置 i18n 以使用 en 语言环境? - 2

    如果特定语言环境中缺少翻译,如何配置i18n以使用en语言环境翻译?当前已插入翻译缺失消息。我正在使用RoR3.1。 最佳答案 找到相似的question这里是答案:#application.rb#railswillfallbacktoconfig.i18n.default_localetranslationconfig.i18n.fallbacks=true#railswillfallbacktoen,nomatterwhatissetasconfig.i18n.default_localeconfig.i18n.fallback

  7. ruby-on-rails - 可移植 Ruby on Rails 环境 - 2

    我给自己买了一个新的8gigUSBkey,我正在寻找一个合适的解决方案来拥有一个可移植RoR环境来学习。我在谷歌上搜索了一下,发现了一些可能性,但我很想听听一些现实生活中的经历和意见。谢谢! 最佳答案 我喜欢InstantRails,非常容易使用,无需安装程序,也不会修改您的系统环境。 关于ruby-on-rails-可移植RubyonRails环境,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/q

  8. ruby-on-rails - 如何通过 URL 更改语言环境? - 2

    在我的双语Rails4应用程序中,我有一个像这样的LocalesController:classLocalesController用户可以通过此表单更改其语言环境:deflocale_switcherform_tagurl_for(:controller=>'locales',:action=>'change_locale'),:method=>'get',:id=>'locale_switcher'doselect_tag'set_locale',options_for_select(LANGUAGES,I18n.locale.to_s)end这有效。但是,目前用户无法通过URL更改

  9. ruby - 从 FaSTLane 将环境变量传递给 shell 脚本 - 2

    我在跑Fastlane(适用于iOS的持续构建工具)以执行用于解密文件的自定义shell脚本。这是命令。sh"./decrypt.shENV['ENCRYPTION_P12']"我想不出将环境变量传递给该脚本的方法。显然,如果我将密码硬编码到脚本中,它就可以正常工作。sh"./decrypt.shmypwd"有什么建议吗? 最佳答案 从直接Shell中扩展假设这里的sh是一个faSTLane命令,它以给定的参数作为脚本文本调用shell命令:#asafastlanedirectivesh'./decrypt.sh"$ENCRYPTI

  10. 【自动驾驶环境感知项目】——基于Paddle3D的点云障碍物检测 - 2

    文章目录1.自动驾驶实战:基于Paddle3D的点云障碍物检测1.1环境信息1.2准备点云数据1.3安装Paddle3D1.4模型训练1.5模型评估1.6模型导出1.7模型部署效果附录show_lidar_pred_on_image.py1.自动驾驶实战:基于Paddle3D的点云障碍物检测项目地址——自动驾驶实战:基于Paddle3D的点云障碍物检测课程地址——自动驾驶感知系统揭秘1.1环境信息硬件信息CPU:2核AI加速卡:v100总显存:16GB总内存:16GB总硬盘:100GB环境配置Python:3.7.4框架信息框架版本:PaddlePaddle2.4.0(项目默认框架版本为2.3

随机推荐