草庐IT

hive-overwrite

全部标签

hive之正则函数研究学习regex/regex_replace/regex_extract

首先学习这个之前要先知道一些正则的基本知识。随便百度一下正则表达式–元字符|菜鸟教程字符描述\将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如,'n'匹配字符"n"。'\n'匹配一个换行符。序列'\\'匹配"\"而"\("则匹配"("。^匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性,^也匹配'\n'或'\r'之后的位置。$匹配输入字符串的结束位置。如果设置了RegExp对象的Multiline属性,$也匹配'\n'或'\r'之前的位置。*匹配前面的子表达式零次或多次。例如,zo*能匹配"z"以及"zoo"。*等价于{0,}

【大数据之Hive】三、Linux下安装MySQL8.0.33

1安装MySQL(1)解压MySQL安装包:tar-xfmysql-8.0.33-1.el7.x86_64.rpm-bundle.tar-C/opt/module/mysql(2)卸载系统自带的mariadb:sudorpm-qa|grepmariadb|xargssudorpm-e--nodeps(3)安装MySQL依赖(一定要按顺序装):cd/opt/module/mysqlsudorpm-ivhmysql-community-common-8.0.33-1.el7.x86_64.rpmsudorpm-ivhmysql-community-libs-8.0.33-1.el7.x86_64.

Hive中使用sort_array函数解决collet_list列表排序混乱问题

目录0.相关文章链接1.数据准备2.使用collect_list和concat_ws进行行转列3.使用sort_array函数解决collet_list列表排序混乱问题0.相关文章链接开发随笔文章汇总  1.数据准备建表语句:createtabletemp(provincestring,citystring,scorebigint);插入数据:INSERTOVERWRITEtabletempVALUES('广东','佛山',8),('广东','广州',10),('广东','中山',1),('广东','东莞',5),('湖南','娄底',6),('湖南','株洲',9),('湖南','湘潭',7

Hbase/Hive知识概要

一、HBase1、HBase特点Hbase是构建在HDFS上的分布式数据库,提供高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统。HBase主要用于大数据领域,MySQL是行式存储,HBase是列式存储。HBase是一种构建在HBase之上的分布式、面向列的存储系统,需要实时读写、随机访问超大规模数据集时,可以使用HBase。HDFS不支持小文件,不支持并发写,不支持文件随机修改,查询效率也低。HBase却是一个支持百万级别高并发写入,支持实时查询,适合存储稀疏数据的分布式数据库系统。(1)海量存储、扩展性强、高可靠性·海量存储:HBase单表可以有百亿行、百万列,可以在横向和纵向

Hive--时间函数大全

hive时间函数1.current_date():获取当前格式化日期2.current_timestamp():获取当前格式化时间3.unix_timestamp():获取当前unix时间戳4.from_unixtime():把unix时间戳转化为格式化时间5.to_date():当前格式化时间(含时分秒)转化为年月日6.date_format():对日期进行格式化7.year/quarter/month/day/hour/minute/second:年/季度/月/日/时/分/秒8.date_add():取格式化时间的前/后n天9.date_sub():取格式化时间的前/后n天10.add_m

Hive 分桶表及作用

Hive分桶表一.概述分桶和分区的区别?如何创建分桶表?分桶表的作用?二.补充:通用的join优化(1)空key过滤(2)空key转换三.分桶表的作用2.1数据的采样2.2提升查询效率(多表join优化)(一)小表join大表(二)中表join大表(三)大表join大表一.概述分区提供一个隔离数据和优化查询的便利方式。不过,并非所有的数据集都可形成合理的分区。对于一张表或者分区,Hive可以进一步组织成,也就是更为细粒度的数据范围划分;分桶是将数据集分解成更容易管理的若干部分的另一个技术。分区针对的是数据的存储路径;分桶针对的是数据文件。分桶和分区的区别?分桶针对的是数据文件,分区针对的是数据

Hive 分桶表及作用

Hive分桶表一.概述分桶和分区的区别?如何创建分桶表?分桶表的作用?二.补充:通用的join优化(1)空key过滤(2)空key转换三.分桶表的作用2.1数据的采样2.2提升查询效率(多表join优化)(一)小表join大表(二)中表join大表(三)大表join大表一.概述分区提供一个隔离数据和优化查询的便利方式。不过,并非所有的数据集都可形成合理的分区。对于一张表或者分区,Hive可以进一步组织成,也就是更为细粒度的数据范围划分;分桶是将数据集分解成更容易管理的若干部分的另一个技术。分区针对的是数据的存储路径;分桶针对的是数据文件。分桶和分区的区别?分桶针对的是数据文件,分区针对的是数据

Hive执行计划之hive依赖及权限查询和常见使用场景

目录概述1.explaindependency的查询与使用2.借助explaindependency解决一些常见问题2.1.识别看似等价的SQL代码实际上是不等价的:2.2通过explaindependency验证将过滤条件在不同位置的查询区别3.查看SQL操作涉及到的相关权限信息概述Hive查看执行计划的命令中还有两个不怎么常用但很重要的命令,接下来详细介绍一下。有一个问题:如何在hiveSQL执行之前就探查到这段逻辑的血缘依赖关系?hive血缘是很多生产级数仓必须要提供的功能,大多数解决方案都是使用hivehooks的方法通过SQL执行后解析得到hive表的依赖关系。这个方案能细粒度到字段

hive中字符串查找函数 instr 和 locate

instr( )字符串查找函数:instr语法:instr(stringstr,stringsubstr)                                  --hive语法      instr(string str,stringsubstr[,bigintposition[,bingintoccurrence]]) --impala语法返回值:int说明: 返回字符串substr在str中 首次出现的位置 ,找不到返回0。instr(sourceString,destString,start,appearPosition) instr('源字符串','目标字符串','开始位

hive中字符串查找函数 instr 和 locate

instr( )字符串查找函数:instr语法:instr(stringstr,stringsubstr)                                  --hive语法      instr(string str,stringsubstr[,bigintposition[,bingintoccurrence]]) --impala语法返回值:int说明: 返回字符串substr在str中 首次出现的位置 ,找不到返回0。instr(sourceString,destString,start,appearPosition) instr('源字符串','目标字符串','开始位