草庐IT

Hive的查询基本操作

文章目录hive查询语句一、select句式查询员工表employess_table包含了几个部门二、Having子句查询员工信息表有平均薪资大于5000的部门三、关系运算符1、查询员工信息表中年龄信息为36岁的员工信息2、查询员工信息表中部门PersonnelDepartment的所有员工信息3、查询员工姓名首字母四、算数运算符计算员工信息表employess_table中所有员工的实际工资计算员工信息表每位员工每天的薪资,以单月工作日为20天计算五、逻辑运算符查询员工信息表employess_table中薪资大于等于5000,并且薪资小于等于8000的员工信息六、复杂运算符1、查询学生考级

Hive的查询基本操作

文章目录hive查询语句一、select句式查询员工表employess_table包含了几个部门二、Having子句查询员工信息表有平均薪资大于5000的部门三、关系运算符1、查询员工信息表中年龄信息为36岁的员工信息2、查询员工信息表中部门PersonnelDepartment的所有员工信息3、查询员工姓名首字母四、算数运算符计算员工信息表employess_table中所有员工的实际工资计算员工信息表每位员工每天的薪资,以单月工作日为20天计算五、逻辑运算符查询员工信息表employess_table中薪资大于等于5000,并且薪资小于等于8000的员工信息六、复杂运算符1、查询学生考级

flink-sql读写hive-1.13

1.版本说明本文档内容基于flink-1.13.x,其他版本的整理,请查看本人博客的flink专栏其他文章。1.1.概述ApacheHive已经成为了数据仓库生态系统中的核心。它不仅仅是一个用于大数据分析和ETL场景的SQL引擎,同样也是一个数据管理平台,可用于发现,定义,和演化数据。Flink与Hive的集成包含两个层面。一是利用了Hive的MetaStore作为持久化的Catalog,用户可通过HiveCatalog将不同会话中的Flink元数据存储到HiveMetastore中。例如,用户可以使用HiveCatalog将Kafka表或Elasticsearch表存储在HiveMetast

Hive 根据日期计算周数以及周几

文章目录周数周几周数在Hive中我们可以通过内置函数weekofyear(stringdate)获取某日期的周数。示例:selectweekofyear("2022-02-01");结果输出:5需要注意的是,weekofyear的查找范围并不是按年算的,而是按周算的。例如:selectweekofyear("2022-01-01");结果输出:52表示的是2021年的第52周。虽然年份已经是2022年,但仍然会走完一个周期(7天)才会进入到新的一轮。这就是跨年周,使用该函数时需要考虑到这个。周几计算星期几我们也可以通过内置函数pmod取余数与datediff日期相减函数实现。计算思路:通过当前

Hadoop/Hive/Spark小文件处理

什么是小文件?小文件指的是文件size比HDFS的blocksize小很多的文件。Hadoop适合处理少量的大文件,而不是大量的小文件。hadoop小文件常规的处理方式1、小文件导致的问题首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有10000000个小文件,每个文件占用一个block,则namenode大约需要2G空间。如果存储1亿个文件,则namenode需要20G空间。这样namenode内存容量严重制约了集群的扩展。其次,访问大量小文件速度远远小于访问几个大文件。HDFS最初是为流式访问大文件开发的,如果访问大量小文件,需

FAILED: Execution Error, return code -101 from org.apache.hadoop.hive.ql.exec.FunctionTask

在hive运行UDF函数时候报错:编译环境与运行环境版本不匹配。 这是因为在使用的编译环境进行打包时,编译环境jdk版本与测试环境不一致。 如上,我开始时使用jdk17进行打包的,然后我的linux中jdk为jdk1.8,当进行创建UDF函数时就出现了版本不一致错误。解决:更换编译环境jdk。 再进行打包: 成功运行UDF函数:  以上是我解决这个错误的步骤,希望能解决你的问题。

hive 导入导出csv文件

1、导入将CSV文件导入到hive数据库,具体操作如下,首先在hive中创建自己的table,并且设置以逗号分隔。createtableifnotexiststmp.hb_label_C(sample_catstring,reg_mob_md5string)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','STOREDASTEXTFILE;然后descformattedtmp.hb_label_C确定tmp.hb_label_C表的分布式文件路径最后在linux命令行输入hdfsdfs-putlabel_C.csvhdfs://nameservice1/user/h

构建大数据环境:Hadoop、MySQL、Hive、Scala和Spark的安装与配置

前言在当今的数据驱动时代,构建一个强大的大数据环境对于企业和组织来说至关重要。本文将介绍如何安装和配置Hadoop、MySQL、Hive、Scala和Spark,以搭建一个完整的大数据环境。简介安装Hadoop首先,从ApacheHadoop的官方网站下载所需的Hadoop发行版。选择适合你系统的二进制发行版,下载完成后解压缩到安装目录。然后配置环境变量,并修改Hadoop的配置文件,根据需要进行修改。安装MySQL安装MySQL服务器是搭建大数据环境的重要一步。更新包管理器后,执行命令安装MySQL服务器,并配置MySQL允许通过网络连接。编辑MySQL的配置文件,并重启MySQL服务,最后

hive日期使用技巧

1.获取指定月第一天最后一天--指定月的第一天selecttrunc('2020-11-10','MM');2020-11-01--指定月的最后一天selectlast_day('2020-11-10');2020-11-302.获取连续日期格式:withdatesas(  selectdate_add(start_date,a.pos)asd  from(selectposexplode(split(repeat("m",datediff(end_date,start_date)),"m")))a)select*fromdates;12345使用方式:将start_date和end_date

datax 同步mongodb数据库到hive(hdfs)和elasticserch(es)

一、同步环境1.mongodb版本:3.6.3。(有点老了,后来发现flinkcdc都只能监控一张表,多张表无法监控)2.datax版本:自己编译的DataX-datax_v2022103.hdfs版本:3.1.34.hive版本:3.1.2二、同步思路1.增量数据:需要每隔1小时将mongodb中17个集合的数据同步至hive,因为有数据生成时间,才用datax查询方式,将上一个小时的数据依次循环调用datax同步至hdfs,利用shell脚本和调度器定时装载至hive中形成ods层,并和其他表关联处理形成dwd层,提供给需求方。2.全量数据:历史数据才用datax编写脚本循环读取+调度+h