草庐IT

7、hive shell客户端与属性配置、内置运算符、函数(内置运算符与自定义UDF运算符)

ApacheHive系列文章1、apache-hive-3.1.2简介及部署(三种部署方式-内嵌模式、本地模式和远程模式)及验证详解2、hive相关概念详解–架构、读写文件机制、数据存储3、hive的使用示例详解-建表、数据类型详解、内部外部表、分区表、分桶表4、hive的使用示例详解-事务表、视图、物化视图、DDL(数据库、表以及分区)管理详细操作5、hive的load、insert、事务表使用详解及示例6、hive的select(GROUPBY、ORDERBY、CLUSTERBY、SORTBY、LIMIT、union、CTE)、join使用详解及示例7、hiveshell客户端与属性配置、

常用的hive sql

细节:sql中有涉及到正则匹配函数的,要注意转义符号因为在不同语言下正则匹配规则是否需要加转义符号是不同的,举例,regexp_replace函数,在hivesql的正则匹配规则的\d+需要前面给它加上转义符号\,而在java中可能不用,在Prestosql就是不用加转义符号\的。☺思路:不用特意去记哪一种语言需要加转义符号,哪种语言不需要,只需要记住正则匹配规则,报错的一个原因,可能是转义符号的问题即可。regexp_replace(`date`,'\\d+小时前','${DateUtil.addDays(dt,1)}')1、拆解json字段/json解析函数get_json_object(

Hive 调优集锦(1)

一、前言1.1概念Hive依赖于HDFS存储数据,Hive将HQL转换成MapReduce执行,所以说Hive是基于Hadoop的一个数据仓库工具,实质就是一款基于HDFS的MapReduce计算框架,对存储在HDFS中的数据进行分析和管理。1.2架构1.用户接口:ClientCLI(hiveshell)、JDBC/ODBC(java访问hive)、WEBUI(浏览器访问hive)2.元数据:Metastore元数据包括:表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等。3.Hadoop使用HDFS进行存储,使用MapRedu

Hive产生大量Info日志的问题(由Flink On Yarn配置引起的)

1、背景当时,hive安装部署好,并没有这个问题,后面部署了FlinkOnYarn,就没有使用过hive了。2、问题(1)使用bin/hive的时候,会打印大量的INFO日志,不停的刷日志,sql语句这些能够正常执行(MR引擎或者Tez引擎都可以),但是其实无法正常使用。(2)info日志如下所示:(3)而后想通过启动hiveserver2服务,使用DataGrip去连接操作Hive,这样至少不用看见那烦人的INFO日志了。。。事实是,sql语句无法正常跑下去。。。3、解决办法出现这个问题的原因:环境变量配置了HADOOP_CLASSPATH导致的。vim/etc/profile.d/my_e

【Hive】分隔符 『 单字节分隔符 | 多字节分隔符』

文章目录1.概述2.单字节分隔符方法:使用delimited关键字3.其它复杂情况方式一:写MR程序进行字符替换转为单字节分隔符问题(不推荐)方式二:自定义InputFormat转为单字节分隔符问题(不推荐)方式三:使用serde关键字(推荐)1.概述在创建表时,可以使用rowformat...指定分隔符形式。比如:createtableexternalstudent(namestring,ageint);rowformatdelimitedfieldsterminatedby','但是,根据原始数据分隔符的复杂程度,需要指定不同的分隔形式。比如:情况一:分隔符为单字节分隔符为多字节字段中包含

Hive中的炸裂、窗口函数及示例

一、炸裂函数针对一行数据,输出多行数据,主要用于map,array这种的根据一个例子来看:friends是一个array数组students是一个mapaddress是一个struct1)explode函数explode函数以array类型数据输入,然后对数组中的数据进行迭代,返回多行结果,一行一个数组元素值。作用于array:arrayCol:array字段的名称colName1:array字段的别名,随便起--语法是这样selectexplode(arrayCol)ascolName1fromtablename举例:selectexplode(friends)fromteacher作用于m

【大数据实训】基于Hive的北京市天气系统分析报告(二)

博主介绍:✌全网粉丝6W+,csdn特邀作者、博客专家、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于大数据技术领域和毕业项目实战✌🍅文末获取项目联系🍅目录1.引言1.1项目背景11.2项目意义12.需求分析22.1数据清洗需求分析22.2数据存储需求分析22.3MapReduce需求分析22.4Hive查询需求分析22.5数据可视化需求分析33.开发流程图44.项目开发环境55.系统实现85.1数据清洗85.2数据存储95.3MapReduce数据分析95.4Hive数据查询105.5数据可视化135.5.1前端设计136.项目总结与展望15参考文献

seatunnel-2.3.2 doris数据同步到hive(cdh-6.3.2)首次运行踩坑记录

seatunnel-2.3.2doris数据同步到hive(cdh-6.3.2)首次运行报错解决,解决的报错如下:1、java.lang.NoClassDefFoundError:org/apache/hadoop/hive/metastore/api/MetaException2、java.lang.NoClassDefFoundError:org/apache/thrift/TBase3、java.lang.NoClassDefFoundError:org/apache/hadoop/hive/conf/HiveConf4、java.lang.NoClassDefFoundError:co

我的私人笔记(安装hive)

1.hive下载:Indexof/dist/hive/hive-1.2.1或者上传安装包至/opt/software:rz或winscp上传2.解压cd/opt/softwaretar-xzvfapache-hive-1.2.1-bin.tar.gz-C/opt/servers/3.重命名mvapache-hive-1.2.1-binhive4.配置环境变量vi/etc/profileexportHIVE_HOME=/opt/servers/hive  exportPATH=$PATH:$HIVE_HOME/binsource/etc/profile5.修改hive-env.sh配置文件,配置

apache atlas与hive、hbase、spark的集成

3.atlas的使用Atlas的使用相对简单,其主要工作是同步各服务(主要是Hive)的元数据,并构建元数据实体之间的关联关系,然后对所存储的元数据建立索引,最终未用户提供数据血缘查看及元数据检索等功能。Atlas在安装之初,需手动执行一次元数据的全量导入,后续Atlas便会利用HiveHook增量同步Hive的元数据。手动导入hbase的元数据,与spark任务相关联获取数据血缘关系。3.1.Atlas集成hive3.1.1.修改atlas配置修改/opt/atlas/conf/atlas-application.properties配置文件中的以下参数#########HiveHookCo