草庐IT

hive-builtins

全部标签

【系统学习Hive常用知识】

文章目录前言一、Hive是什么?二、Hive安装配置1.hive包安装2、配置Hive元数据存储到MySQL3、Hive服务部署三、Hive数据操作1、DDL数据定义2、DML数据操作3、Export&Import四、查询1、SortBy2、分区(DistributeBy)3、分区排序(ClusterBy)五、函数1、数值函数2、字符串函数3、日期函数4、控制函数5、集合函数6、聚合函数7、炸裂函数8、窗口函数六、分区表和分桶表1、分区表2、修复分区3、二级分区4、动态分区5、分桶表七、Hive文件格式1、TextFile2、ORC前言Hive是由Facebook开源,基于Hadoop的一个数

Hive内核调优(二)

Hive内核调优(二)1.3Hive日志说明SQL调优过程中需要结合Hive日志分析性能瓶颈,如下是对关键日志进行说明。1.3.1运行日志运行态日志主要包括HiveServer日志、MetaStore日志、Yarn日志。HiveServer日志:HiveServer负责接收客户端请求(SQL语句),然后编译、执行(提交到YARN或运行localMR)、与MetaStore交互获取元数据信息等。HiveServer运行日志记录了一个SQL完整的执行过程。通常情况下,当我们遇到SQL语句运行失败,我们首先要看的就是HiveServer运行日志。日志文件路径:/var/log/Bigdata/hiv

Hive与Hbase的区别与联系

一、概念1,Hivehive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。2,HbaseHBase是一个分布式的、面向列的开源数据库,该技术来源于FayChang所撰写的Goog

Hive实战:词频统计

一、实战概述在本次实战任务中,我们的目标是在大数据环境下利用Hive工具进行词频统计。以下是详细步骤和关键操作的优化描述:数据源准备:将测试用的文本文件test.txt上传到HDFS的/hivewc/input目录,以便Hive高效访问数据。Hive环境准备:启动HiveMetastore服务,确保Hive元数据存储正常运行。启动Hive客户端,方便后续的数据操作和查询。数据表创建:在Hive客户端中创建一个名为t_word的外部表,仅包含一个word字段,类型为字符串,用于存储拆分后的单词。将表的位置设置为HDFS中的/hivewc/input目录,实现Hive与HDFS数据的无缝对接。词频

使用Flume的Hive水槽时,蜂巢中的记录不完整

我想使用Flume将数据收集到Hive数据库。我将数据存储在蜂巢中,但是数据尚未完成。我想像以下内容一样插入记录:1201,Gopal1202,Manisha1203,Masthanvali1204,Kiran1205,Kranthi当我运行水槽时,HDFS中有Bucket_00000和Bucket_00000_flush_length(/user/hive/warehouse/test2.db/employee12/delta_0000501_0000600)。(数据库为test2,表名是雇员12)当我使用的时候select*fromemployee12“,如下所示:------------

【Hive-Sql】Hive 处理 13 位时间戳得到年月日时分秒(北京时间)

【Hive-Sql】Hive处理13位时间戳得到年月日时分秒(北京时间)1)需求2)实现1)需求使用Hive自带函数将13位时间戳转成年月日时分秒(北京时间),格式样例:‘2023-01-1312:23:41’2)实现selectfrom_utc_timestamp(1682238448915,'GMT+8');--结果:2023-04-2316:27:28.915000000,包含毫秒了selectfrom_unixtime(cast(1682238448915/1000asbigint),'yyyy-MM-ddHH:mm:ss');--结果:2023-04-2308:27:28,差了8小时

【hive】- 使用insert into/insert overwrite插入数据到静态分区、动态分区、动静态分区

文章目录前言一、hive分区hive分区类型hive分区参数二、数据插入方式静态分区插入数据动态分区插入数据动静混合分区插入数据前言Hive中支持的分区类型有两种,静态分区(staticpartition)与动态分区(dynamicpartition),本文主要讲针对不同分区情况,如何正确地使用insertinto/insertoverwrite将数据插入表里对应的分区。一、hive分区hive分区类型静态分区与动态分区的区别:静态分区字段需要手动指定,通过用户传递来决定;而动态分区字段是根据select出来的具体值进行动态分区。hive分区参数hive.exec.dynamic.partit

大数据开发之电商数仓(hadoop、flume、hive、hdfs、zookeeper、kafka)

第1章:数据仓库1.1数据仓库概述1.1.1数据仓库概念1、数据仓库概念:为企业制定决策,提供数据支持的集合。通过对数据仓库中数据的分析,可以帮助企业,改进业务流程、控制成本,提高产品质量。数据仓库并不是数据的最终目的地,而是为数据最终的目的地做好准备,这些准备包括对数据的:清洗、转义、分类、重组、合并、拆分、统计等。2、数据仓库的数据通常包括:业务数据、用户行为数据和爬虫数据等3、业务系统数据库(关系型数据库中)1)业务数据:主要指的是各行业在处理事务过程中产生的业务数据2)产生:用户在电商网站中登录、下单、支付等过程中,需要和网站后台数据库进行增删改查交互,产生的数据3)存储:都是存储到关

Hadoop入门学习笔记——五、在虚拟机中部署Hive

视频课程地址:https://www.bilibili.com/video/BV1WY4y197g7课程资料链接:https://pan.baidu.com/s/15KpnWeKpvExpKmOC8xjmtQ?pwd=5ay8Hadoop入门学习笔记(汇总)目录五、在虚拟机中部署Hive5.1.在node1虚拟机安装MySQL5.2.配置Hadoop5.3.下载并加压Hive5.4.下载MySQL驱动包5.5.配置Hive5.6.初始化元数据库5.7.使用hadoop用户身份启动Hive5.8.配置Hive支持中文注释和分区五、在虚拟机中部署HiveHive是单机工具,只需要部署在一台服务器即

Hive行列转换

1.多行转多列姓名(name)学科(subject)成绩(score)A语文70A数学80A英语90B语文75B数学85B英语95行列转换思路分析及实现多行转多列如果需要将上⾯的样例表转换为姓名|语⽂成绩|数学成绩|英语成绩这样的格式,就是多行转多列思路:涉及到行转成列,肯定是会按照某⼀列或者某⼏列的值进⾏分组来压缩⾏数,所以会⽤到groupby。分组之后需要⽤到聚合函数,由于多列中的每列只关⼼⾃⼰对应的数据,所以要使⽤case语句进⾏选择,⾄于聚合函数,只要数据能保证唯一性,max、min、avg(数值类型)等都可以样例SQLselectname,max(casesubjectwhen'数学