目录概念HiveHBase共同点区别关系首先要知道Hive和HBase两者的区别,我们必须要知道两者的作用和在大数据中扮演的角色概念Hive1.Hive是hadoop数据仓库管理工具,严格来说,不是数据库,本身是不存储数据和处理数据的,其依赖于HDFS存储数据,依赖于MapReducer进行数据处理。2.Hive的优点是学习成本低,可以通过类SQL语句(HSQL)快速实现简单的MR任务,不必开发专门的MR程序。3.由于Hive是依赖于MapReducer处理数据的,因此有很高的延迟性,不适用于实时数据处理(数据查询,数据插入,数据分析),适用于离线数据的批处理。HBase1.HBase是一种分
Hive搭建一、安装MySQL1.卸载当前系统自带的MySQL2.获取MySQL下载源3.安装MySQL源4.检查MySQL源是否安装成功5.安装MySQL6.启动MySQL服务7.进入MySQL设置权限二、安装Hive1.解压安装文件2.拷贝MySQL驱动3.添加环境变量4.解决日志jar包冲突5.配置hive-site.xml文件6.创建元数据库7.初始化与启动8.检测运行是否正常三、扩展——配置hiveserver2前言:安装Hive之前请先确保你当前已经安装好了Hadoop,并且运行正常。本文中使用的Hadoop版本为hadoop-3.1.3、Hive版本为hive-3.1.2、MyS
Hive搭建一、安装MySQL1.卸载当前系统自带的MySQL2.获取MySQL下载源3.安装MySQL源4.检查MySQL源是否安装成功5.安装MySQL6.启动MySQL服务7.进入MySQL设置权限二、安装Hive1.解压安装文件2.拷贝MySQL驱动3.添加环境变量4.解决日志jar包冲突5.配置hive-site.xml文件6.创建元数据库7.初始化与启动8.检测运行是否正常三、扩展——配置hiveserver2前言:安装Hive之前请先确保你当前已经安装好了Hadoop,并且运行正常。本文中使用的Hadoop版本为hadoop-3.1.3、Hive版本为hive-3.1.2、MyS
背景:根据甲方要求,需要对大数据平台指定表(hive、impala表)的历史数据[2021-01-01至2023-03-29]指定字段进行批量更新,然后把表同步到Oracle。先更新大数据平台上的表,再把更新完成的表同步到Oracle。hive有8张表更新,其中4张大表【分区表】(数据量分别为:1038738976、260958144、25860509、2867005),另外4张小表(几万、二十几万的样子)。一、小表更新,不用按月\按分区更新,直接全量更新。insertoverwritetable表a(字段1,字段2,...,字段n)select字段1,字段2,...,nvl(t2.proje
文章目录一.问题描述二.解决方案2.1数据倾斜2.2SQL改写1:由分析函数改为常规写法2.3分析数据分布2.4SQL改写2:重写参考:一.问题描述需求描述:表概述:dt时间分区data_source数据来源类别start_date时间data_count当前时间的数量需要实现的需求求每个data_source下start_date当前累积的data_countSQL代码:selectdt,data_souce,start_date,data_count,sum(data_count)over(partitionbydata_sourceorderbystart_date)asdata_cum
Hive数据清洗中常见的几个字符串处理函数1.空格处理trim()2.字符串分割split()3.无用符处理regexp_replace()4.字符串拼接concat()concat_ws()5.获取json字段里的字符get_json_object()6.字符串搜索函数regexp_extract()在Hive中,数据清洗是一个重要的任务之一,通常涉及到对数据进行过滤、修改和转换等操作,以使其更易于使用和分析。常用的数据清洗技术包括:数据去重、空值填充、数据格式化、数据类型转换、数据分区等。这里简单记录几个常用的数据清洗函数,后期会继续增加。1.空格处理trim()trim()函数是一种字符
hive表删除数据不能使用deletefromtable_name的SQL语句,一。删除分区部分数据insertoverwritetablet_finance_tax_billpartition(importdate='20220218')selectbill_id, apply_emp_id, bill_type_name, apply_emp_name, reimbursement_name, bill_apply_date, check_amount, appr_org_sfname, bill_beg_date, bill_end_date,bill_code ,jzpz ,jzpz_
在安装hive的时候,启动hiveserver2后,启动beeline客户端报错如下:CouldnotopenclienttransportwithJDBCUri:jdbc:hive2://hadoop101:10000:Failedtoopennewsession:java.lang.RuntimeException:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException):User:rootisnotallowedtoimpersonateroot(s
hive解析json数据前言一、了解hive中处理json的两个函数1.get_json_object函数2.json_tuple函数二、解析简单json1.想要解析name,可以使用get_json_object:2.想同时提取所有字段,可以用json_tuple三、解析json数组1.提取数组中第一条数据的name2.提取数组中所有的name四、解析嵌套json1.提取class字段下数组2.提取class字段下数组的name总结前言最近一位开发的同学在使用get_json_object函数对j
Hive安装第01节Hive安装部署1.安装前准备2.安装MySQL3.Hive安装配置4.metastore服务第02节.Hive客户端的使用1.客户端介绍2.HiveServer2服务3.HiveCLI的使用4.beeline客户端5.DataGrip可视化客户端第02节Hive简单使用1.基本操作2.查看YARN及HDFS3.总结第01节Hive安装部署1.安装前准备由于Hive是一款基于Hadoop的数据仓库软件,通常部署运行在Linux系统之上。因此必须要先保证服务器的基础环境正常,Hadoop环境正常运行,Hive不是分布式安装运行的软件,其分布式的特性主要借由Hadoop完成。包