HIVE2_草庐IT

常用的hive sql

细节：sql中有涉及到正则匹配函数的，要注意转义符号因为在不同语言下正则匹配规则是否需要加转义符号是不同的，举例，regexp_replace函数，在hivesql的正则匹配规则的\d+需要前面给它加上转义符号\，而在java中可能不用，在Prestosql就是不用加转义符号\的。☺思路：不用特意去记哪一种语言需要加转义符号，哪种语言不需要，只需要记住正则匹配规则，报错的一个原因，可能是转义符号的问题即可。regexp_replace(`date`,'\\d+小时前','${DateUtil.addDays(dt,1)}')1、拆解json字段/json解析函数get_json_object(

Hive 调优集锦（1）

一、前言1.1概念Hive依赖于HDFS存储数据，Hive将HQL转换成MapReduce执行，所以说Hive是基于Hadoop的一个数据仓库工具，实质就是一款基于HDFS的MapReduce计算框架，对存储在HDFS中的数据进行分析和管理。1.2架构1．用户接口：ClientCLI（hiveshell）、JDBC/ODBC(java访问hive)、WEBUI（浏览器访问hive）2．元数据：Metastore元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等。3．Hadoop使用HDFS进行存储，使用MapRedu

Hive产生大量Info日志的问题（由Flink On Yarn配置引起的）

1、背景当时，hive安装部署好，并没有这个问题，后面部署了FlinkOnYarn，就没有使用过hive了。2、问题（1）使用bin/hive的时候，会打印大量的INFO日志，不停的刷日志，sql语句这些能够正常执行（MR引擎或者Tez引擎都可以），但是其实无法正常使用。（2）info日志如下所示：（3）而后想通过启动hiveserver2服务，使用DataGrip去连接操作Hive，这样至少不用看见那烦人的INFO日志了。。。事实是，sql语句无法正常跑下去。。。3、解决办法出现这个问题的原因：环境变量配置了HADOOP_CLASSPATH导致的。vim/etc/profile.d/my_e

【Hive】分隔符『单字节分隔符 | 多字节分隔符』

文章目录1.概述2.单字节分隔符方法：使用delimited关键字3.其它复杂情况方式一：写MR程序进行字符替换转为单字节分隔符问题（不推荐）方式二：自定义InputFormat转为单字节分隔符问题（不推荐）方式三：使用serde关键字（推荐）1.概述在创建表时，可以使用rowformat...指定分隔符形式。比如：createtableexternalstudent(namestring,ageint);rowformatdelimitedfieldsterminatedby','但是，根据原始数据分隔符的复杂程度，需要指定不同的分隔形式。比如：情况一：分隔符为单字节分隔符为多字节字段中包含

Hive中的炸裂、窗口函数及示例

一、炸裂函数针对一行数据，输出多行数据，主要用于map，array这种的根据一个例子来看：friends是一个array数组students是一个mapaddress是一个struct1）explode函数explode函数以array类型数据输入，然后对数组中的数据进行迭代，返回多行结果，一行一个数组元素值。作用于array：arrayCol：array字段的名称colName1：array字段的别名，随便起--语法是这样selectexplode(arrayCol)ascolName1fromtablename举例：selectexplode(friends)fromteacher作用于m

【大数据实训】基于Hive的北京市天气系统分析报告(二)

博主介绍：✌全网粉丝6W+,csdn特邀作者、博客专家、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于大数据技术领域和毕业项目实战✌🍅文末获取项目联系🍅目录1.引言1.1项目背景11.2项目意义12.需求分析22.1数据清洗需求分析22.2数据存储需求分析22.3MapReduce需求分析22.4Hive查询需求分析22.5数据可视化需求分析33.开发流程图44.项目开发环境55.系统实现85.1数据清洗85.2数据存储95.3MapReduce数据分析95.4Hive数据查询105.5数据可视化135.5.1前端设计136.项目总结与展望15参考文献

seatunnel-2.3.2 doris数据同步到hive(cdh-6.3.2)首次运行踩坑记录

seatunnel-2.3.2doris数据同步到hive(cdh-6.3.2)首次运行报错解决，解决的报错如下：1、java.lang.NoClassDefFoundError:org/apache/hadoop/hive/metastore/api/MetaException2、java.lang.NoClassDefFoundError:org/apache/thrift/TBase3、java.lang.NoClassDefFoundError:org/apache/hadoop/hive/conf/HiveConf4、java.lang.NoClassDefFoundError:co

我的私人笔记（安装hive）

1.hive下载：Indexof/dist/hive/hive-1.2.1或者上传安装包至/opt/software：rz或winscp上传2.解压cd/opt/softwaretar-xzvfapache-hive-1.2.1-bin.tar.gz-C/opt/servers/3.重命名mvapache-hive-1.2.1-binhive4.配置环境变量vi/etc/profileexportHIVE_HOME=/opt/servers/hive exportPATH=$PATH:$HIVE_HOME/binsource/etc/profile5.修改hive-env.sh配置文件，配置

apache atlas与hive、hbase、spark的集成

3.atlas的使用Atlas的使用相对简单，其主要工作是同步各服务（主要是Hive）的元数据，并构建元数据实体之间的关联关系，然后对所存储的元数据建立索引，最终未用户提供数据血缘查看及元数据检索等功能。Atlas在安装之初，需手动执行一次元数据的全量导入，后续Atlas便会利用HiveHook增量同步Hive的元数据。手动导入hbase的元数据，与spark任务相关联获取数据血缘关系。3.1.Atlas集成hive3.1.1.修改atlas配置修改/opt/atlas/conf/atlas-application.properties配置文件中的以下参数#########HiveHookCo

hive删除数据进行恢复

在实际开发或生产中，hive表如果被误删，如被truncate或是分区表的分区被误删了，只要在回收站的清空周期内，是可以恢复数据的，步骤如下：（1）先找到被删除数据的存放目录，一般是在~/user/*/.Trash/目录下，可以根据关键词去找，例如：（2）将回收站里的数据复制到表的数据存储目录如果不清楚表的存储目录的书，可以使用“showcreatetabletable_name”来查看，数据复制命令：hdfsdfs-cp回收站目录数据/*数据表存储目录/（3）执行hive的修复命令打开hive客户端，执行修复命令：msckrepairtabletable_name;（4）数据验证对恢复后的数