大数据Hadoop之——数据仓库Hive

技术栈 2023-03-28 原文

一、概述

Hive是基于Hadoop的一个数据仓库（Data Aarehouse，简称数仓、DW），可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。是用于存储、分析、报告的数据系统。

在Hadoop生态系统中，HDFS用于存储数据，Yarn用于资源管理，MapReduce用于数据处理，而Hive是构建在Hadoop之上的数据仓库，包括以下方面：

使用HQL作为查询接口；
使用HDFS存储；
使用MapReduce或其它计算框架计算；
执行程序运行在Yarn上。

Hive的本质是：将Hive SQL转化成MapReduce程序，其灵活性和扩展性比较好，支持UDF，自定义存储格式等；适合离线数据处理。

Hive相关网站

官网：http://hive.apache.org
文档：https://cwiki.apache.org/confluence/display/Hive/GettingStarted
https://cwiki.apache.org/confluence/display/Hive/Home
下载：http://archive.apache.org/dist/hive
Github地址：https://github.com/apache/hive

二、Hive优点与使用场景

1）优点

操作接口采用类SQL语法，提供快速开发的能力(简单、容易上手)；
避免了去写MapReduce，减少开发人员的学习成本；
统一的元数据管理，可与impala/spark等共享元数据；
易扩展(HDFS+MapReduce：可以扩展集群规模；支持自定义函数)；
数据的离线处理；比如：日志分析，海量结构化数据离线分析。

2）使用场景

Hive的执行延迟比较高，因此hive常用于数据分析的，对实时性要求不高的场合；
Hive优势在于处理大数据，对于处理小数据没有优势，因为Hive的执行延迟比较高。

三、Hive架构

由上图可知，hadoop和mapreduce是hive架构的根基。Hive架构包括如下组件：CLI（command line interface）、JDBC/ODBC、Thrift Server、WEB GUI、metastore和Driver(Complier、Optimizer和Executor)，这些组件我可以分为两大类：服务端组件和客户端组件。

1）服务端组件

1、Driver组件

该组件包括Complier、Optimizer和Executor，它的作用是将我们写的HiveQL（类SQL）语句进行解析、编译优化，生成执行计划，然后调用底层的mapreduce计算框架。

2、Metastore组件

Metastore是元数据服务组件，这个组件存储hive的元数据，hive的元数据存储在关系数据库里，hive支持的关系数据库有derby、mysql。元数据对于hive十分重要，因此hive支持把metastore服务独立出来，安装到远程的服务器集群里，从而解耦hive服务和metastore服务，保证hive运行的健壮性。

3、Thrift服务

Thrift是facebook开发的一个软件框架，它用来进行可扩展且跨语言的服务的开发，hive集成了该服务，能让不同的编程语言调用hive的接口。

2）客户端组件

1、CLI

command line interface，命令行接口。

2、Thrift客户端

上面的架构图里没有写上Thrift客户端，但是hive架构的许多客户端接口是建立在Thrift客户端之上，包括JDBC和ODBC接口。

3、WEBGUI

hive客户端提供了一种通过网页的方式访问hive所提供的服务。这个接口对应hive的hwi组件（hive web interface），使用前要启动hwi服务。

3）Metastore详解

Hive的metastore组件是hive元数据集中存放地。
Metastore组件包括两个部分：metastore服务和后台数据的存储。
后台数据存储的介质就是关系数据库，例如hive默认的嵌入式磁盘数据库derby，还有mysql数据库。
Metastore服务是建立在后台数据存储介质之上，并且可以和hive服务进行交互的服务组件，默认情况下，metastore服务和hive服务是安装在一起的，运行在同一个进程当中。
我也可以把metastore服务从hive服务里剥离出来，metastore独立安装在一个集群里，hive远程调用metastore服务，这样我们可以把元数据这一层放到防火墙之后，客户端访问hive服务，就可以连接到元数据这一层，从而提供了更好的管理性和安全保障。
使用远程的metastore服务，可以让metastore服务和hive服务运行在不同的进程里，这样也保证了hive的稳定性，提升了hive服务的效率。

四、Hive的工作原理

简单的将就是说sql或者HQL（Hive SQL）会被Hive解释，编译，优化并生成查询计划，一般情况而言查询计划会被转化为MapReduce任务进而执行。

具体工作过程如下：

词法分析/语法分析

使用antlr将SQL语句解析成抽象语法树（AST）

语义分析

从Megastore获取模式信息，验证SQL语句中队表名，列名，以及数据类型的检查和隐式转换，以及Hive提供的函数和用户自定义的函数（UDF/UAF）

逻辑计划生成

生成逻辑计划--算子树

逻辑计划优化

对算子树进行优化，包括列剪枝，分区剪枝，谓词下推等

物理计划生成

将生成包含由MapReduce任务组成的DAG（Directed acyclic graph：有向无环图）的物理计划

物理计划执行

将DAG发送到Hadoop集群进行执行

最后把查询结果返回

【温馨提示】新版本的Hive也支持使用Tez或Spark等作为执行引擎。

五、安装

1）local模式（内嵌derby）

内嵌derby数据库（一个会话连接，常用于简单测试）derby是个in-memory的数据库。

安装方法如下：

1、下载hive

地址：http://archive.apache.org/dist/hive

$ cd /opt/bigdata/hadoop/software
# 下载
$ wget http://archive.apache.org/dist/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz
# 解压
$ tar -zxvf apache-hive-3.1.2-bin.tar.gz -C /opt/bigdata/hadoop/server/

2、配置环境变量

$ cd /opt/bigdata/hadoop/server/apache-hive-3.1.2-bin/conf/
# 把模板文件复制一份
$ cp hive-env.sh.template hive-env.sh

在/etc/profile文件中追加如下内容：

export HIVE_HOME=/opt/bigdata/hadoop/server/apache-hive-3.1.2-bin
export PATH=$HIVE_HOME/bin:$PATH

source 加载生效

$ source /etc/profile

hive-site.xml，这个文件不存在，创建文件，内容如下：

# 创建在hdfs存储目录，下面配置文件会用到
$ hadoop fs -mkdir -p /user/hive/warehouse
# 切到hive conf目录
$ cd /opt/bigdata/hadoop/server/apache-hive-3.1.2-bin/conf

hive-site.xml

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>  
<property>  
  <name>javax.jdo.option.ConnectionURL</name>  
  <value>jdbc:derby:;databaseName=metastore_db;create=true</value>  
</property>  
   
<property>  
  <name>javax.jdo.option.ConnectionDriverName</name>  
  <value>org.apache.derby.jdbc.EmbeddedDriver</value>  
</property>  
   
<property>  
  <name>hive.metastore.local</name>  
  <value>true</value>  
</property>  

<property>  
  <name>hive.metastore.schema.verification</name>  
  <value>false</value>  
</property>  

<!-- 数据在hdfs中的存储位置 -->
<property>  
  <name>hive.metastore.warehouse.dir</name>  
  <value>/user/hive/warehouse</value>  
</property>  
<property>
    <name>datanucleus.schema.autoCreateAll</name>
    <value>true</value>
</property>
</configuration>

hive-env.sh #底部追加两行

export HADOOP_HOME=/opt/bigdata/hadoop/server/hadoop-3.3.1
export HIVE_CONF_DIR=/opt/bigdata/hadoop/server/apache-hive-3.1.2-bin/conf
export HIV_AUX_JARS_PATH=/opt/bigdata/hadoop/server/apache-hive-3.1.2-bin/lib

3、启动验证

$ hive
# 查看数据库
hive> show databases;
# 查看当前库（默认是default库）的表
hive> show tables;
# 查看当前库
hive> select current_database();

查看当前目录，发现多了derby文件和一个metastore_db目录

【注意】使用derby存储方式时，运行hive会在当前目录生成一个derby文件和一个metastore_db目录。这种存储方式的弊端是在同一个目录下同时只能有一个hive客户端能使用数据库，否则会提示如下错误：

2）单用户模式（mysql）

该模式下就是客户端和服务端在一个节点上，使用关系型数据库（mysql、oracle等带jdbc驱动的数据库）来对元数据进行存储。这里使用mysql，mysql可以在安装同一台机器上，也可以在远程机器上。

hive包上面已经下载了，这里就不重复了。

1、安装mysql数据库

yum源安装

$ yum -y install mysql-server
# 启动数据库
$ systemctl start mysqld
$ systemctl status mysqld
# 开机自启动
$ systemctl enable mysqld

连接mysql8.x授权（无密码，直接进入）

$ mysql
# 创建可远程连接用户
CREATE USER 'root'@'%' IDENTIFIED BY '123456';
#  修改用户密码
ALTER USER 'root'@'%' IDENTIFIED WITH mysql_native_password BY '123456';
# 授权给用户
GRANT ALL PRIVILEGES ON *.* TO 'root'@'%'  WITH GRANT OPTION;
# 查看
select user,host from mysql.user;
show grants for 'root'@'%';
# 权限撤回，这里不执行，了解即可
revoke all privileges on *.* from 'root'@'%';

通过密码登录mysql

$ mysql -uroot -h 192.168.0.113 -p
输入密码：123456

2、解决Hive与Hadoop之间guava版本的差异

$ cd /opt/bigdata/hadoop/server
$ ls -l apache-hive-3.1.2-bin/lib/guava-*.jar
$ ls -l hadoop-3.3.1/share/hadoop/common/lib/guava-*.jar
# 删除hive中guava低版本
$ rm -f apache-hive-3.1.2-bin/lib/guava-*.jar
# copy hadoop中的guava到hive
$ cp hadoop-3.3.1/share/hadoop/common/lib/guava-*.jar apache-hive-3.1.2-bin/lib/
$ ls -l apache-hive-3.1.2-bin/lib/guava-*.jar

3、下载对应版本的mysql驱动包

# 查看mysql版本
$ mysql --version

这里的mysql版本是8.0.26，所以就得下载对应版本的驱动包
官网下载地址：https://dev.mysql.com/downloads/

如果小伙伴的mysql版本（8.0.26）跟我的一样，也可以使用百度的地址下载：

链接：https://pan.baidu.com/s/1uczpnH0PHxbq258vMoYlgA
提取码：8888

# 包放在这个目录下
$ cd /opt/bigdata/hadoop/software
# 解压
$ unzip mysql-connector-java-8.0.26.zip

把对应的驱动包copy到hive lib目录下

$ cp mysql-connector-java-8.0.26/mysql-connector-java-8.0.26.jar ../server/apache-hive-3.1.2-bin/lib/

4、配置

$ cd /opt/bigdata/hadoop/server/apache-hive-3.1.2-bin/conf
# 先备份一下
$ mv hive-site.xml local-derby-hive-site.xml 
# 复制一份
$ cp hive-default.xml.template hive-site.xml

hive-site.xml内容如下：

<?xml version="1.0"?>  
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>  
<configuration>

<!-- 配置hdfs存储目录 -->
<property>  
	<name>hive.metastore.warehouse.dir</name>
	<value>/user/hive_remote/warehouse</value>  
</property>  

<!-- 本地模式 -->
<property>
  <name>hive.metastore.local</name>
  <value>true</value>
</property>

<!-- 所连接的 MySQL 数据库的地址，hive_local是数据库，程序会自动创建，自定义就行 -->
<property>  
  <name>javax.jdo.option.ConnectionURL</name>
  <value>jdbc:mysql://hadoop-node1:3306/hive_local?createDatabaseIfNotExist=true&amp;useSSL=false&amp;serverTimezone=Asia/Shanghai</value>
</property>

<!-- MySQL 驱动 -->
<property>
  <name>javax.jdo.option.ConnectionDriverName</name>
  <value>com.mysql.jdbc.Driver</value>
</property>

<!-- mysql连接用户 -->
<property>
  <name>javax.jdo.option.ConnectionUserName</name>
  <value>root</value>
</property>  

<!-- mysql连接密码 -->
<property>
  <name>javax.jdo.option.ConnectionPassword</name>
  <value>123456</value>
</property>

<!--元数据是否校验-->
<property>
  <name>hive.metastore.schema.verification</name>
  <value>false</value>
</property>

<property>
  <name>system:user.name</name>
  <value>root</value>
  <description>user name</description>
</property>

</configuration>

5、初始化元数据

# 初始化，--verbose：查询详情，可以不加
$ schematool -initSchema -dbType mysql --verbose

出现上图Initialization script completed和schemaTool completed，就初始化完成了。

通过mysql 客户端工具取连接数据，发现新增量了hive_local，这个库里有74张表。

6、启动验证

# 进入hive
$ hive
# 查看数据库
hive> show databases;
# 查看当前库（默认是default库）的表
hive> show tables;
# 查看当前库
hive> select current_database();

3）多用户模式（mysql）

该模式下就是客户端和服务端在不同的节点上，因此需要单独启动metastore服务。该模式需要hive.metastore.local设置为false，并将hive.metastore.uris设置为metastore服务器URI，如有多个metastore服务器，URI之间用逗号分隔。

客户端hadoop-node2和服务端hadoop-node1分布在不同的节点上，客户端通过远程的方式连接。
客户端hadoop-node2节点操作，基本和服务端差不多操作，区别是他不需要初始化。

在hadoop-node2部署客户端

1、copy hive包到客户端hadoop-node2（在hadoop-node1服务端执行）

$ cd /opt/bigdata/hadoop/server
$ scp -r apache-hive-3.1.2-bin hadoop-node2:/opt/bigdata/hadoop/server/

2、在客户端添加环境变量（hadoop-node2）

在/etc/profile文件中追加如下内容：

export HIVE_HOME=/opt/bigdata/hadoop/server/apache-hive-3.1.2-bin
export PATH=$HIVE_HOME/bin:$PATH

source 加载生效

$ source /etc/profile

3、配置hive-site.xml（hadoop-node2）

$ cd /opt/bigdata/hadoop/server/apache-hive-3.1.2-bin/conf/

hive-site.xml内容如下：

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>  
  
<property>  
  <name>hive.metastore.warehouse.dir</name>  
  <value>/user/hive/warehouse</value>  
</property>  
   
<property>  
  <name>hive.metastore.local</name>  
  <value>false</value>  
</property>  
<property>  
  <name>hive.metastore.schema.verification</name>  
   <value>false</value>  
</property>
  
<property>  
  <name>hive.metastore.uris</name>  
  <value>thrift://hadoop-node1:9083</value>  
</property>  
  
</configuration>

4、服务端后台开启metastore（hadoop-node1）

$ nohup hive --service metastore &
$ ss -atnlp|grep 9083

5、在客户端执行hive操作（hadoop-node2）

# 这里使用新命令beeline，跟hive命令差不多
$ hive
$ show databases;
$ show tables;
$ create table users(id int,name string);
$ insert into users values(1,'zhangsan');

通过上面数据的插入操作，发现hive的操作最终会变成一个mapreduce任务在运行，也正验证了之前所述。

五、Hive客户端

Hive发展至今，总共历经了两代客户端工具：

第一代客户端（deprecated不推荐使用）：$HIVE_HOME/bin/hive，是一个shellUtil。主要功能：一是可用于以交互或批处理运行Hive查询；二是用于Hive相关服务的启动，比如metastore服务。
第二代客户端（recommend 推荐使用）：$HIVE_HOME/bin/beeline，是一个JDBC客户端，是官方强烈推荐使用的Hive命令行工具，和第一代客户端相比，性能加强安全性提高。

1）Hive CLI

1、查看帮助

使用 hive -H 或者 hive --help 命令可以查看所有命令的帮助，显示如下：

usage: hive
 -d,--define <key=value>          Variable subsitution to apply to hive 
                                  commands. e.g. -d A=B or --define A=B  --定义用户自定义变量
    --database <databasename>     Specify the database to use  -- 指定使用的数据库
 -e <quoted-query-string>         SQL from command line   -- 执行指定的 SQL
 -f <filename>                    SQL from files   --执行 SQL 脚本
 -H,--help                        Print help information  -- 打印帮助信息
    --hiveconf <property=value>   Use value for given property    --自定义配置
    --hivevar <key=value>         Variable subsitution to apply to hive  --自定义变量
                                  commands. e.g. --hivevar A=B
 -i <filename>                    Initialization SQL file  --在进入交互模式之前运行初始化脚本
 -S,--silent                      Silent mode in interactive shell    --静默模式
 -v,--verbose                     Verbose mode (echo executed SQL to the  console)  --详细模式

2、交互式命令行

直接使用 hive 命令，不加任何参数，即可进入交互式命令行。

3、非交互式

在不进入交互式命令行的情况下，可以使用 hive -e 执行 SQL 命令。

示例：

$ hive -e 'show databases';

4、接SQL文件非交互式执行SQL脚本

用于执行的 sql 脚本可以在本地文件系统，也可以在 HDFS 上。

准备一个sql文件test001.sql

$ cat test001.sql
show databases;
show tables;

本地文件系统执行

hive -f ./test001.sql

HDFS文件系统执行

# 先把sql文件传到hdfs上
$ hadoop fs -put test001.sql /
$ hadoop fs -ls hdfs://hadoop-node1:8082/test001.sql
$ hive -f hdfs://hadoop-node1:8082/test001.sql

5、配置Hive变量

$ hadoop fs -mkdir -p /user/hive/warehouse/test
$ hive -e 'select * from users' \
--hiveconf hive.exec.scratchdir=/user/hive/warehouse/test  \
--hiveconf mapred.reduce.tasks=4;

发现hdfs的目录没有写权限

添加权限再执行

$ hadoop fs -chmod -R 777 /user/hive/warehouse/test
$ hive -e 'select * from users' \
--hiveconf hive.exec.scratchdir=/user/hive/warehouse/test  \
--hiveconf mapred.reduce.tasks=4;

2）Beeline CLI（推荐）

HiveServer2

Hive 内置了 HiveServer 和 HiveServer2 服务，两者都允许客户端使用多种编程语言进行连接，但是 HiveServer 不能处理多个客户端的并发请求，所以产生了 HiveServer2。
HiveServer2（HS2）允许远程客户端可以使用各种编程语言向 Hive 提交请求并检索结果，支持多客户端并发访问和身份验证。HS2 是由多个服务组成的单个进程，其包括基于 Thrift 的 Hive 服务（TCP 或 HTTP）和用于 Web UI 的 Jetty Web 服务器。
HiveServer2 拥有自己的 CLI(Beeline)，Beeline 是一个基于 SQLLine 的 JDBC 客户端。由于 HiveServer2 是 Hive 开发维护的重点 (Hive0.15 后就不再支持 hiveserver)，所以 Hive CLI 已经不推荐使用了，官方更加推荐使用 Beeline。

1、查看帮助

Beeline 拥有更多可使用参数，可以使用 beeline --help 查看，完整参数如下：

$ beeline --help

Usage: java org.apache.hive.cli.beeline.BeeLine
   -u <database url>               the JDBC URL to connect to
   -r                              reconnect to last saved connect url (in conjunction with !save)
   -n <username>                   the username to connect as
   -p <password>                   the password to connect as
   -d <driver class>               the driver class to use
   -i <init file>                  script file for initialization
   -e <query>                      query that should be executed
   -f <exec file>                  script file that should be executed
   -w (or) --password-file <password file>  the password file to read password from
   --hiveconf property=value       Use value for given property
   --hivevar name=value            hive variable name and value
                                   This is Hive specific settings in which variables
                                   can be set at session level and referenced in Hive
                                   commands or queries.
   --property-file=<property-file> the file to read connection properties (url, driver, user, password) from
   --color=[true/false]            control whether color is used for display
   --showHeader=[true/false]       show column names in query results
   --headerInterval=ROWS;          the interval between which heades are displayed
   --fastConnect=[true/false]      skip building table/column list for tab-completion
   --autoCommit=[true/false]       enable/disable automatic transaction commit
   --verbose=[true/false]          show verbose error messages and debug info
   --showWarnings=[true/false]     display connection warnings
   --showNestedErrs=[true/false]   display nested errors
   --numberFormat=[pattern]        format numbers using DecimalFormat pattern
   --force=[true/false]            continue running script even after errors
   --maxWidth=MAXWIDTH             the maximum width of the terminal
   --maxColumnWidth=MAXCOLWIDTH    the maximum width to use when displaying columns
   --silent=[true/false]           be more silent
   --autosave=[true/false]         automatically save preferences
   --outputformat=[table/vertical/csv2/tsv2/dsv/csv/tsv]  format mode for result display
   --incrementalBufferRows=NUMROWS the number of rows to buffer when printing rows on stdout,
                                   defaults to 1000; only applicable if --incremental=true
                                   and --outputformat=table
   --truncateTable=[true/false]    truncate table column when it exceeds length
   --delimiterForDSV=DELIMITER     specify the delimiter for delimiter-separated values output format (default: |)
   --isolation=LEVEL               set the transaction isolation level
   --nullemptystring=[true/false]  set to true to get historic behavior of printing null as empty string
   --maxHistoryRows=MAXHISTORYROWS The maximum number of rows to store beeline history.
   --convertBinaryArrayToString=[true/false]    display binary column data as string or as byte array
   --help                          display this message

2、常用参数

在 Hive CLI 中支持的参数，Beeline 都支持，常用的参数如下。更多参数说明可以参见官方文档 Beeline Command Options

参数	说明
-u	数据库地址
-n	用户名
-p	密码
-d
-e	执行 SQL 命令
-f	执行 SQL 脚本
-i (or)–init	在进入交互模式之前运行初始化脚本
–property-file	指定配置文件
–hiveconf property=value	指定配置属性
–hivevar name=value	用户自定义属性，在会话级别有效

3、通过代理用户连接 Hive（不需要配置用户名和密码）

1）在hive服务的安装节点的hive-site.xml配置文件中添加以下配置

<!-- host -->
<property>
  <name>hive.server2.thrift.bind.host</name>
  <value>hadoop-node1</value>
  <description>Bind host on which to run the HiveServer2 Thrift service.</description>
</property>

<!-- hs2端口 默认是1000，为了区别，我这里不使用默认端口-->
<property>
  <name>hive.server2.thrift.port</name>
  <value>11000</value>
</property>

2）修改hadoop配置文件core-site.xml,表示设置可访问的用户及用户组

配置hadoop core-site.xml，再core-site.xml文件中追加如下内容

<property>
  <name>hadoop.proxyuser.root.hosts</name>
  <value>*</value>
</property>
<property>
  <name>hadoop.proxyuser.root.groups</name>
  <value>*</value>
</property>

【注意】hadoop.proxyuser.root.hosts和hadoop.proxyuser.root.hosts，其中“root”是连接beeline的用户，将“root”替换成自己的用户名即可。，这个用户是什么不重要，它就是个超级代理。

改完hadoop-node1后，把配置也推送到其它节点上，然后重启hadoop就行

$ /opt/bigdata/hadoop/server/hadoop-3.3.1/etc/hadoop
$ scp core-site.xml hadoop-node2:/opt/bigdata/hadoop/server/hadoop-3.3.1/etc/hadoop/
$ scp core-site.xml hadoop-node2:/opt/bigdata/hadoop/server/hadoop-3.3.1/etc/hadoop/
# 重启hadoop
$ stop-all.sh
$ start-all.sh

3）启动hiveserver2（hs2）

$ nohup hiveserver2 > /dev/null 2>&1 &
$ jobs -l
# 启动有点慢，可以稍等一段时间再查看端口
$ ss -antlp|grep 11000

4）连接，这里root就是上面core-site.xml配置的代理用户

【第一种方式】

$ beeline
beeline> !connect jdbc:hive2://hadoop-node1:11000
Enter username for jdbc:hive2://hadoop-node1:11000: root
# 密码直接回车就行
Enter password for jdbc:hive2://hadoop-node1:11000:
0: jdbc:hive2://hadoop-node1:11000> show databases;

【第二种方式】

$ beeline -u jdbc:hive2://hadoop-node1:11000  -n root

5）在~/.bashrc中添加alias

$ alias beeline="beeline -u jdbc:hive2://hadoop-node1:11000  -n root"
$ beeline

除了上面那种连接方式，还有以下几种方式

默认配置如下：

<!-- hs2端口 -->
<property>
  <name>hive.server2.thrift.port</name>
  <value>10000</value>
</property>
<!-- hs2用户登录方式，NONE表示不登录 -->
<property>
  <name>hive.server2.authentication</name>
  <value>NONE</value>
</property>

这里需要稍微讲一下hive.server2.authentication的这种类型，连接方式如下：

NONE：这种类型就是默认值，hive没有启用用户安全认证，任何登录者都拥有超级权限，可以对hive进行任意操作。
NOSASL：需要任意一个用户名，不需要密码，不填写或者填写错误用户名会导致报错。
KERBEROS：用户需要拥有hive的keytab文件（类似于ssh-key等密钥），有了keytab就相当于拥有了永久的凭证，不需要提供密码，因此只要linux的系统用户对于该keytab文件有读写权限，就能冒充指定用户访问hadoop，因此keytab文件需要确保只对owner有读写权限。
LDAP：hive采用ldap统一认证服务，连接访问时需要提供username和password。
PAM：hive采用pam认证模块，同样需要提供username和password，只是原理大不相同。

PAM(Pluggable Authentication Modules)即可插拔式认证模块，它是一种高效而且灵活的用户级别的认证方式，它也是当前Linux服务器普遍使用的认证方式。PAM可以根据用户的网段、时间、用户名、密码等实现认证。并不是所有需要验证的服务都使用PAM来验证，如MySQL-Server就没有安装相应的PAM文件。

CUSTOM：可以根据自身需求对用户登录认证进行一定客制，比如将密码通过md5进行加密等。

3）DataGrip客户端

这里提供一个别人破解安装DataGrip的教程，如果没安装DataGrip，可以参考一下：http://www.32r.com/soft/70050.html

1、创建工程

2、关联本地目录到工程

3、配置连接hive

六、实战操作

Hive SQL跟mysql等关系型数据库的操作非常相似，如果了解过或学习过关系型数据库，使用Hive SQL就非常简单，学习成本也非常低。

1）建库，建表

hive有个默认的数据库default

1、建库

# 建库
create datatabse test1218
# 查库
show databases;
# 查看当前所在库
select current_database();
# 切库
use test1218;
select current_database();

2、建表

分隔符

Hive 中没有定义专门的数据格式，数据格式可以由用户指定，用户定义数据格式需要指定三个属性：列分隔符（通常为空格、”\t”、”\x001″）、行分隔符（”\n”）以及读取文件数据的方法。

\n    每行记录分隔符
^A    分隔列（八进制 \001），对应ascii码SOH；
^B    分隔ARRAY或者STRUCT中的元素，或者MAP中多个键值对之间分隔（八进制 \002）
^C    分隔MAP中键值对的“键”和“值”（八进制 \003）

对应sql设置

row format delimited 
fields terminated by '\001' 
collection items terminated by '\002' 
map keys terminated by '\003'
lines terminated by '\n' 
stored as textfile;

创建表

-- 创建表时指定库,默认分隔符
CREATE TABLE  IF NOT EXISTS test1218.person (
id INT,
name STRING,
age INT,
likes ARRAY<STRING>,
address MAP<STRING,STRING>
);
-- 创建表时指定库，指定分隔符
CREATE TABLE  IF NOT EXISTS test1218.person_1 (
id INT COMMENT 'ID',
name STRING COMMENT '名字',
age INT COMMENT '年龄',
likes ARRAY<STRING> COMMENT '爱好',
address MAP<STRING,STRING> COMMENT '地址'
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
COLLECTION ITEMS TERMINATED BY '-'
MAP KEYS TERMINATED BY ':'
LINES TERMINATED BY '\n';

show tables;

在HDFS页面上查看对应的文件

3、上传表数据到HDFS
person_1表数据

1,t1,18,lol-book-movie,地址:广东.深圳.南山
2,t2,20,lol-book-movie,地址:广东.深圳.南山
3,t3,21,lol-book-movie,地址:广东.深圳.南山
4,t4,21,lol-book-movie,地址:广东.深圳.南山
5,t5,21,lol-book-movie,地址:广东.深圳.南山
6,t6,21,lol-book-movie,地址:广东.深圳.南山

通过命令上传数据

$ hadoop fs -put person_1-data.txt /user/hive_remote/warehouse/test1218.db/person_1/
$ hadoop fs -ls /user/hive_remote/warehouse/test1218.db/person_1/

查看数据

select * from test1218.person_1;

2）查看

# 显示所有库
show databases ;
# 查看当前库
select current_database();
# 查看default库里的表
show tables in default;
# 查看当前数据里的表
show tables ;
# 查询显示一张表的元数据信息
desc formatted person_1;

3）注释COMMENT中文乱码解决

【原因】元数据保存在mysql中，默认不支持中文，默认的编码是latin1

desc formatted person_1;

【解决】修改Hive存储的元数据信息（metastore），下面语句是在mysql中执行，数据库记得换成自己的。

use hive_local;
show tables;

alter table hive_local.COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;
alter table hive_local.TABLE_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;
alter table hive_local.PARTITION_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;
alter table hive_local.PARTITION_KEYS modify column PKEY_COMMENT varchar(4000) character set utf8;
alter table hive_local.INDEX_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;

再查看还是没改过来，是因为对已经创建的表是不生效的，得删除表重新创建表才会显示正常。

# 删表
drop table test1218.person_1;
# 创建表
-- 创建表时指定库，指定分隔符
CREATE TABLE  IF NOT EXISTS test1218.person_1 (
id INT COMMENT 'ID',
name STRING COMMENT '名字',
age INT COMMENT '年龄',
likes ARRAY<STRING> COMMENT '爱好',
address MAP<STRING,STRING> COMMENT '地址'
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
COLLECTION ITEMS TERMINATED BY '-'
MAP KEYS TERMINATED BY ':'
LINES TERMINATED BY '\n';

再查看表的元数据信息，中文注释信息显示正常了

desc formatted person_1;

4）Load加载数据（推荐）

# 创建表
create table person_local_1(id int,name string,age int) row format delimited fields terminated by ',';
create table person_hdfs_1(id int,name string,age int) row format delimited fields terminated by ',';
show tables;
# 从local加载数据，这里的local是指hs2服务所在机器的本地linux文件系统
load data local inpath '/opt/bigdata/hadoop/data/hive-data' into table person_local_1;
# 查询
select * from person_local_1;
# 从hdfs中加载数据，这里是移动，会把hdfs上的文件mv到对应的hive的目录下
load data inpath '/person_hdfs.txt'  into table person_hdfs_1;
# 查询
select * from person_hdfs_1;

5）Insert添加数据（特别慢，不推荐）

insert into table person_hdfs_1 values (4,'p4',21);

上面那条插入语句会启动一个MR任务

更多Hive SQL操作，可以参考官方文档：https://hive.apache.org/

大数 mdash hive 1601821 code 大数据

有关大数据Hadoop之——数据仓库Hive的更多相关文章

ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - Ruby 有 `Pair` 数据类型吗？ - 2
有时我需要处理键/值数据。我不喜欢使用数组，因为它们在大小上没有限制(很容易不小心添加超过2个项目，而且您最终需要稍后验证大小)。此外，0和1的索引变成了魔数(MagicNumber)，并且在传达含义方面做得很差(“当我说0时，我的意思是head...”)。散列也不合适，因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题，但我很想知道:Ruby标准库是否已经带有这样一个类？最佳
ruby - 我如何添加二进制数据来遏制 POST - 2
我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_
世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2
无论您是想搭建桌面端、WEB端或者移动端APP应用，HOOPSPlatform组件都可以为您提供弹性的3D集成架构，同时，由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台（桌面/WEB/APP，而且某些客户端是“瘦”客户端）快速、方便地将数据接入到3D应用系统的解决方案，并且当访问数据时，在各个平台上的性能和用户体验保持一致，HOOPSPlatform将帮助您完成。利用HOOPSPlatform，您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品，HOOPSSDK包含的技术有：快速且准确的CAD
FOHEART H1数据手套驱动Optitrack光学动捕双手运动(Unity3D) - 2
本教程将在Unity3D中混合Optitrack与数据手套的数据流，在人体运动的基础上，添加双手手指部分的运动。双手手背的角度仍由Optitrack提供，数据手套提供双手手指的角度。 01 客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照：https://gitee.com/foheart_1/foheart-h1-data-summary.git02 数据转发打开MotiveBody软件的Streaming，开始向Unity3D广播数据；MotionVenus中设置->选项选择Unit
使用canal同步MySQL数据到ES - 2
文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目，Java开发。基于数据库增量日志解析，提供增量数据订阅&消费。Git地址：https://github.co
ruby-on-rails - 创建 ruby 数据库时惰性符号绑定(bind)失败 - 2
我正在尝试在Rails上安装ruby，到目前为止一切都已安装，但是当我尝试使用rakedb:create创建数据库时，我收到一个奇怪的错误:dyld:lazysymbolbindingfailed:Symbolnotfound:_mysql_get_client_infoReferencedfrom:/Library/Ruby/Gems/1.8/gems/mysql2-0.3.11/lib/mysql2/mysql2.bundleExpectedin:flatnamespacedyld:Symbolnotfound:_mysql_get_client_infoReferencedf
STM32读取串口传感器数据（颗粒物传感器，主动上传） - 2
文章目录1.开发板选择*用到的资源2.串口通信（个人理解）3.代码分析（注释比较详细）1.主函数2.串口1配置3.串口2配置以及中断函数4.注意问题5.源码链接1.开发板选择我用的是STM32F103RCT6的板子，不过代码大概在F103系列的板子上都可以运行，我试过在野火103的霸道板上也可以，主要看一下串口对应的引脚一不一样就行了，不一样的就更改一下。*用到的资源keil5软件这里用到了两个串口资源，采集数据一个，串口通信一个，板子对应引脚如下：串口1，TX：PA9，RX：PA10串口2，TX：PA2，RX：PA32.串口通信（个人理解）我就从串口采集传感器数据这个过程说一下我自己的理解，
SPI接收数据异常问题总结 - 2
SPI接收数据左移一位问题目录SPI接收数据左移一位问题一、问题描述二、问题分析三、探究原理四、经验总结最近在工作在学习调试SPI的过程中遇到一个问题——接收数据整体向左移了一位（1bit）。SPI数据收发是数据交换，因此接收数据时从第二个字节开始才是有效数据，也就是数据整体向右移一个字节（1byte）。请教前辈之后也没有得到解决，通过在网上查阅前人经验终于解决问题，所以写一个避坑经验总结。实际背景：MCU与一款芯片使用spi通信，MCU作为主机，芯片作为从机。这款芯片采用的是它规定的六线SPI，多了两根线：RDY和INT，这样从机就可以主动请求主机给主机发送数据了。一、问题描述根据从机芯片手
微信小程序通过字典表匹配对应数据 - 2
前言一般来说，前端根据后台返回code码展示对应内容只需要在前台判断code值展示对应的内容即可，但要是匹配的code码比较多或者多个页面用到时，为了便于后期维护，后台就会使用字典表让前端匹配，下面我将在微信小程序中通过wxs的方法实现这个操作。为什么要使用wxs？{{method(a,b)}}可以看到，上述代码是一个调用方法传值的操作，在vue中很常见，多用于数据之间的转换，但由于微信小程序诸多限制的原因，你并不能优雅的这样操作，可能有人会说，为什么不用if判断实现呢？但是if判断的局限性在于如果存在数据量过大时，大量重复性操作和if判断会让你的代码显得异常冗余。wxswxs相当于是一个独立

大数据Hadoop之——数据仓库Hive

一、概述

二、Hive优点与使用场景

1）优点

2）使用场景

三、Hive架构

1）服务端组件

1、Driver组件

2、Metastore组件

3、Thrift服务

2）客户端组件

1、CLI

2、Thrift客户端

3、WEBGUI

3）Metastore详解

四、Hive的工作原理

五、安装

1）local模式（内嵌derby）

1、下载hive

2、配置环境变量

3、启动验证

2）单用户模式（mysql）

1、安装mysql数据库

2、解决Hive与Hadoop之间guava版本的差异

3、下载对应版本的mysql驱动包

4、配置

5、初始化元数据

6、启动验证

3）多用户模式（mysql）

在hadoop-node2部署客户端

五、Hive客户端

1）Hive CLI

1、查看帮助

2、交互式命令行

3、非交互式

4、接SQL文件非交互式执行SQL脚本

5、配置Hive变量

2）Beeline CLI（推荐）

1、查看帮助

2、常用参数

3、通过代理用户连接 Hive（不需要配置用户名和密码）

3）DataGrip客户端

六、实战操作

1）建库，建表

2）查看

3）注释COMMENT中文乱码解决

4）Load加载数据（推荐）

5）Insert添加数据（特别慢，不推荐）

有关大数据Hadoop之——数据仓库Hive的更多相关文章

随机推荐