[Hive]一篇带你读懂Hive是什么

Philosophy7 2023-04-18 原文

✅作者简介：大家好,我是Philosophy7？让我们一起共同进步吧！🏆 📃个人主页：Philosophy7的csdn博客
🔥系列专栏： 👑哲学语录: 承认自己的无知，乃是开启智慧的大门
💖如果觉得博主的文章还不错的话，请点赞👍+收藏⭐️+留言📝支持一下博>主哦🤞

文章目录

一、Hive介绍

一、Hive介绍

hive: 由 Facebook 开源用于解决海量结构化日志的数据统计工具。

Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能。

Hive的优缺点

优点:

类似于SQL语句，简单学习易上手
避免了去写 MapReduce，减少开发人员的学习成本
Hive 的执行延迟比较高，因此 Hive 常用于数据分析，对实时性要求不高的场合
Hive 优势在于处理大数据，对于处理小数据没有优势，因为 Hive 的执行延迟比较
高
Hive 支持用户自定义函数，用户可以根据自己的需求来实现自己的函数

缺点:

Hive 的 HQL 表达能力有限
Hive 的效率比较低
- Hive本质是一个MR

Hive架构

Hive用户接口

Hive CLI(Hive Command Line) Hive的命令行
HWI(Hive Web Interface) HiveWeb接口
Hive提供了Thrift服务，也就是Hiveserver。

Hive元数据的三种存储模式

单用户模式 : Hive安装时，默认使用的是Derby数据库存储元数据，这样不能并发调用Hive。
多用户模式 : MySQL服务器存储元数据
远程服务器模式 : 启动MetaStoreServer

Hive数据存储

Hive数据可区分为表数据和元数据,表数据我们都知道是表中的数据，而元数据是用来存储表的名字、列、表分区以及属性

Hive是基于Hadoop分布式文件存储的，它的数据存储在HDFS中。现在我们介绍Hive中常见的数据导入方式

本地文件系统中导入数据到Hive
从HDFS上导入数据到Hive表
从其他表中查询出相应的数据并导入Hive表中
在创建表的时候通过从其他表中查询出相应的记录并插入到所创建的表中

#1.演示从本地装载数据到hive
#1.1创建表
create table student(id string, name string) 
row format delimited fields terminated by '\t';
#1.2加载本地的文件到hive
 load data local inpath 
'/root/student.txt' into table default.student; #default.test 数据库.表名 也可直接表名

#2.演示加载HDFS文件到hive中
#2.1 将文件上传到HDFS根目录
dfs -put /root/student.txt /;
#2.2加载HDFS上的数据
load data inpath '/student.txt' into table test.student;

#3.加载数据覆盖表中原有的数据
#3.1上传文件到HDFS中
dfs -put /root/student.txt /;  #将文件装载到表下 文件就相当于Windows中的剪切操作
#3.2加载数据覆盖表中原有数据
load data inpath '/student.txt' overwrite into table test.student;

#4.查询表
select * from student;

#通过查询语句向表中插入数据(insert)
#1.1创建表
create table student_par(id int,name String)
row format delimited fields terminated by '\t';
#1.2通过insert插入数据
insert into table student_par values(1,'zhangsan'),(2,'lisi');

架构原理

用户接口

CLI（command-line interface）、JDBC/ODBC(jdbc 访问 hive)、WEBUI（浏览器访问 hive）

元数据

元数据包括：表名、表所属的数据库（默认是 default）、表的拥有者、列/分区字段、
表的类型（是否是外部表）、表的数据所在目录等

Hadoop

使用 HDFS 进行存储，使用 MapReduce 进行计算。

驱动器：Driver

（1）解析器（SQL Parser）：将 SQL 字符串转换成抽象语法树 AST，这一步一般都用第
三方工具库完成，比如 antlr；对 AST 进行语法分析，比如表是否存在、字段是否存在、SQL
语义是否有误。
（2）编译器（Physical Plan）：将 AST 编译生成逻辑执行计划。
（3）优化器（Query Optimizer）：对逻辑执行计划进行优化。
（4）执行器（Execution）：把逻辑执行计划转换成可以运行的物理计划。对于 Hive 来
说，就是 MR/Spark。

Hive文件格式

TextFile
- 这是默认的文件格式。数据不会压缩处理，磁盘开销大，数据解析开销也大。
SequenceFile
- 这是HadooAPI提供的一种二进制文件支持，以二进制的形式序列化到文件中。
RCFile
- 这种格式是行列存储结构的存储方式。
ORC
- Optimized Row Columnar ORC文件格式是一种Hadoop生态圈中的列式存储格式。

ORC的优势:

列示存储，有多种文件压缩方式
文件是可分割的。
提供了多种索引
可以支持复杂的数据结构比如Map

ORC文件格式是以二进制方式存储的，所以是不可直接读取的。

Hive本质

将HQL转换成MapReduce程序。

Hive处理的数据存储在HDFS上
Hive分析数据底层的实现是MapReduce
执行程序运行在Yarn上

Hive工作原理

简单来说Hive就是一个查询引擎。当Hive接受到一条SQL语句会执行如下操作:

词法分析和语法分析。使用antlr将SQL语句解析成抽象语法树
语义分析。从MetaStore中获取元数据信息，解释SQL语句中的表名、列名、数据类型
逻辑计划生成。生成逻辑计划得到算子树
逻辑计划优化。对算子树进行优化
物理计划生成。将逻辑计划生成出的MapReduce任务组成的DAG的物理计划
物理计划执行。将DAG发送到Hadoop集群进行执行
将查询结果返回。

Hive展现的MapReduce任务设计到组件有:

元存储 : 该组件存储了Hive中表的信息，其中包括了表、表的分区、模式、列及其类型、表映射关系等
驱动 : 控制HiveQL生命周期的组件
查询编辑器
执行引擎
Hive服务器
客户端组件提供命令行接口Hive CLI、Web UI、JDBC驱动等

Hive数据类型

Hive支持两种数据类型，一种原子数据类型、还有一种叫复杂数据类型。

原子数据类型

基本数据类型
类型描述示例
TINYINT 1字节有符合整数 1
SMALLINT 2字节有符号整数 1
INT 4字节有符号整数 1
BIGINT 8字节有符号整数 1
FLOAT 4字节单精度浮点数 1.0
DOUBLE 8字节双精度浮点数 1.0
BOOLEAN true/false true
STRING 字符串 “hive”,‘hive’

	基本数据类型
类型	描述	示例
TINYINT	1字节有符合整数	1
SMALLINT	2字节有符号整数	1
INT	4字节有符号整数	1
BIGINT	8字节有符号整数	1
FLOAT	4字节单精度浮点数	1.0
DOUBLE	8字节双精度浮点数	1.0
BOOLEAN	true/false	true
STRING	字符串	“hive”,‘hive’

Hive类型中的String数据类型类似于MySQL中的VARCHAR。该类型是一个可变的字符串。

Hive支持数据类型转换，Hive是用Java编写的，所以数据类型转换规则遵循Java ：

隐式转换 --> 小转大

强制转换 --> 大传小

Hive复杂数据类型

类型描述示例
ARRAY 有序的字段。字符类型必须相同 ARRAY(1,2)
MAP 无序的键值对。建的类型必须是原子的，值可以是任何类型。 Map(‘a’,1,‘b’,2)
STRUCT 一组命名的字段。字段类型可以不同 STRUCT(‘a’,1,1,0)

类型	描述	示例
ARRAY	有序的字段。字符类型必须相同	ARRAY(1,2)
MAP	无序的键值对。建的类型必须是原子的，值可以是任何类型。	Map(‘a’,1,‘b’,2)
STRUCT	一组命名的字段。字段类型可以不同	STRUCT(‘a’,1,1,0)

Hive 一篇 span li hadoop big data

有关[Hive]一篇带你读懂Hive是什么的更多相关文章

ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法？ - 2
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
ruby-on-rails - Rails - 子类化模型的设计模式是什么？ - 2
我有一个模型:classItem项目有一个属性“商店”基于存储的值，我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式？如果方法中没有大的if-else语句，这是如何干净利落地完成的？最佳答案通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.co
ruby - 什么是填充的 Base64 编码字符串以及如何在 ruby 中生成它们？ - 2
我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%
ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - 为什么 4.1%2 使用 Ruby 返回 0.0999999999999996？但是 4.2%2==0.2 - 2
为什么4.1%2返回0.0999999999999996？但是4.2%2==0.2。最佳答案参见此处:WhatEveryProgrammerShouldKnowAboutFloating-PointArithmetic实数是无限的。计算机使用的位数有限(今天是32位、64位)。因此计算机进行的浮点运算不能代表所有的实数。0.1是这些数字之一。请注意，这不是与Ruby相关的问题，而是与所有编程语言相关的问题，因为它来自计算机表示实数的方式。关于ruby-为什么4.1%2使用Ruby返
ruby - ruby 中的 TOPLEVEL_BINDING 是什么？ - 2
它不等于主线程的binding，这个toplevel作用域是什么？此作用域与主线程中的binding有何不同？>ruby-e'putsTOPLEVEL_BINDING===binding'false 最佳答案事实是，TOPLEVEL_BINDING始终引用Binding的预定义全局实例，而Kernel#binding创建的新实例>Binding每次封装当前执行上下文。在顶层，它们都包含相同的绑定(bind)，但它们不是同一个对象，您无法使用==或===测试它们的绑定(bind)相等性。putsTOPLEVEL_BINDINGput
ruby - Infinity 和 NaN 的类型是什么？ - 2
我可以得到Infinity和NaNn=9.0/0#=>Infinityn.class#=>Floatm=0/0.0#=>NaNm.class#=>Float但是当我想直接访问Infinity或NaN时:Infinity#=>uninitializedconstantInfinity(NameError)NaN#=>uninitializedconstantNaN(NameError)什么是Infinity和NaN？它们是对象、关键字还是其他东西？最佳答案您看到打印为Infinity和NaN的只是Float类的两个特殊实例的字符串
ruby-on-rails - 如果 Object::try 被发送到一个 nil 对象，为什么它会起作用？ - 2
如果您尝试在Ruby中的nil对象上调用方法，则会出现NoMethodError异常并显示消息:"undefinedmethod‘...’fornil:NilClass"然而，有一个tryRails中的方法，如果它被发送到一个nil对象，它只返回nil:require'rubygems'require'active_support/all'nil.try(:nonexisting_method)#noNoMethodErrorexceptionanymore那么try如何在内部工作以防止该异常？最佳答案像Ruby中的所有其他对象
ruby - 为什么 SecureRandom.uuid 创建一个唯一的字符串？ - 2
关闭。这个问题需要detailsorclarity.它目前不接受答案。想改进这个问题吗？通过editingthispost添加细节并澄清问题.关闭8年前。Improvethisquestion为什么SecureRandom.uuid创建一个唯一的字符串？SecureRandom.uuid#=>"35cb4e30-54e1-49f9-b5ce-4134799eb2c0"SecureRandom.uuid方法创建的字符串从不重复？
ruby - 当使用::指定模块时，为什么 Ruby 不在更高范围内查找类？ - 2
我刚刚被困在这个问题上一段时间了。以这个基地为例:moduleTopclassTestendmoduleFooendend稍后，我可以通过这样做在Foo中定义扩展Test的类:moduleTopmoduleFooclassSomeTest但是，如果我尝试通过使用::指定模块来最小化缩进:moduleTop::FooclassFailure这失败了:NameError:uninitializedconstantTop::Foo::Test这是一个错误，还是仅仅是Ruby解析变量名的方式的逻辑结果？最佳答案 Isthisabug,or