草庐IT

Hive的安装及集成Tez为执行引擎

HIVE3配置文档注意:①要求Hadoop必须是可用的(非HA)②要求Mysql能够链接1.上传文件并解压重命名tar-zxvfapache-hive-3.1.2-bin.tar.gzmvapache-hive-3.1.2-binhive-3.1.22.配置环境变量vim/etc/profileexportHIVE_HOME=/usr/local/soft/hive-3.1.2exportPATH=$HIVE_HOME/bin:$PATH#source一下让环境变量生效source/etc/profile3.配置HIVE相关配置文件cd/usr/local/soft/hive-3.1.2/co

云计算与大数据之间的羁绊(期末不挂科版):云计算 | 大数据 | Hadoop | HDFS | MapReduce | Hive | Spark

文章目录前言:一、云计算1.1云计算的基本思想1.2云计算概述——什么是云计算?1.3云计算的基本特征1.4云计算的部署模式1.5云服务1.6云计算的关键技术——虚拟化技术1.6.1虚拟化的好处1.6.2虚拟化技术的应用——12306使用阿里云避免了高峰期的崩溃1.6.3虚拟化的关键特征1.6.4虚拟化的HA指的是什么?1.6.5服务器虚拟化1.6.6虚拟机迁移1.6.6.1虚拟机实时迁移对云计算的意义1.6.7存储虚拟化1.6.7.1存储虚拟化的原动力1.6.7.2什么是存储虚拟化1.6.7.3存储虚拟化的优势1.6.7.4存储技术分类1.6.7.5存储虚拟化的实现方式1.6.8网络虚拟化1

hive高级查询(2)

--分组查询SELECTsex,SUM(mark)sum_markFROMscoreGROUPBYsexHAVINGsum_mark>555;SELECTsex,sum_markFROM(  SELECTsex,SUM(mark)sum_mark  FROMscore  GROUPBYsex)tWHEREsum_mark>555;SELECTAVG(gid),SUM(gid)/COUNT(gid)FROMstudent;SELECTCOUNT(gid),COUNT(DISTINCTgid)FROMstudent;SELECTcollect_list(gid),collect_set(gid)F

【Hive】配置

目录Hive参数配置方式参数的配置方式1.文件配置2.  命令行参数配置3.参数声明配置配置源数据库配置元数据到MySQL查看MySQL中的元数据Hive服务部署 hiveserver2服务介绍部署启动远程连接1.使用命令行客户端beeline进行远程访问metastore服务运行模式部署其他常见配置显示当前表头和库日志配置Hive的JVM堆内存设置关闭Hadoop虚拟内存检查来源:Hive参数配置方式查看当前所有配置hive>set;参数的配置方式1.文件配置默认配置文件:hive-default.xml用户自定义配置文件:hive-site.xml用户自定义配置会覆盖默认配置。另外,Hiv

Hive SQL,使用UNION ALL 纵向合并表,当字段为空值时报错

使用UNIONALL纵向合并表,当字段为空值时报错如下:SQL错误[40000][42000]:Errorwhilecompilingstatement:FAILED:SemanticExceptionorg.apache.hadoop.hive.ql.metadata.HiveException:ThecolumnKEY._col1:0._col0isnotinthevectorizationcontextcolumnmap{KEY._col0=0,KEY._col1=1}.说明:客户端用的DBeaver尝试了各种方式解决,最终办法:第一种:在SQL前加上:sethive.vectorize

Hive:元数据的三种部署方式

Hive元数据的三种部署方式元数据库之Derby1.内嵌模式示意图:2.Derby数据库:Derby数据库是Java编写的内存数据库,在内嵌模式中与应用程序共享一个JVM,应用程序负责启动和停止。初始化Derby数据库1)在hive根目录下,使用/bin目录中的schematool命令初始化hive自带的Derby元数据库[atguigu@hadoop102hive]$bin/schematool-dbTypederby-initSchema2)执行上述初始化元数据库时,会发现存在jar包冲突问题,现象如下:(hadoop和hive下都有这个jar包,以底层的hadoop为主,改了hive的)

关于黑马hive课程案例FineBI中文乱码的解决

文章目录问题描述情况一的解决情况二的解决ETL数据清洗知识社交案例参考代码结果展示问题描述情况1:FineBI导入表名中文乱码,字段内容正常情况2:FineBI导入表字段中文乱码,表名内容正常情况一的解决使用navcat等工具连接node1mysql数据库,执行下列代码,修改相关字符集格式执行的时机准备数据表阶段和清洗数据阶段都可,需在完成需求生成结果表之前--在Hive的MySQL元数据库中执行usehive;--1.修改字段注释字符集altertableCOLUMNS_V2modifycolumnCOMMENTvarchar(256)charactersetutf8;--2.修改表注释字符

[AIGC ~大数据] 深入理解Hadoop、HDFS、Hive和Spark:Java大师的大数据研究之旅

作为一位Java大师,我始终追求着技术的边界,最近我将目光聚焦在大数据领域。在这个充满机遇和挑战的领域中,我深入研究了Hadoop、HDFS、Hive和Spark等关键技术。本篇博客将从"是什么"、"为什么"和"怎么办"三个角度,系统地介绍这些技术。文章目录是什么?HadoopHDFSHiveSpark为什么?Hadoop的优势Hive的优势Spark的优势怎么办?总结是什么?HadoopHadoop是一个开源的分布式计算框架,它能够高效地处理大规模数据集。它的核心是分布式文件系统HDFS和分布式计算模型MapReduce。Hadoop的设计理念是将数据划分成多个块并分布在多个机器上,通过并行

hive sql常用函数

目录一、数据类型二、基础运算三、字符串函数1、字符串长度函数:length()2、字符串反转函数:reverse3、字符串连接函数4、字符串截取函数5、字符串分割函数:split6、字符串查找函数7、ascii8、base649、character_length10、chr11、decode12、encode13、sentences14、ngrams15、context_ngrams16、elt17、field18、soundex19、find_in_set20、format_number21、in_file22、locate23、lpad24、rpad25、ltrim26、trim27、rt

云计算-HIVE部分代码复习(自用)

一、数据仓库的操作1.在Hive中创建一个数据仓库,名为DBcreatedatabaseDB;以上创建了一个BD库,但是这一条sql可以进一步优化,我们可以加上ifnotexistscreatedatabaseifnotexistsDB;2.查看数据仓库BD的信息及路径describedatabaseDB;3.删除名为DB的数据仓库dropdatabaseifexistDB;二、Hive数据表的操作1.查看已经存在的表,因为如果创建已经存在的表的话会报错showtables;2..创建一个名为cat的内部表,有两个字段为cat_id和cat_name,字符类型为string。createtab