本文参考链接置顶: Presto使用Docker独立运行HiveStandaloneMetastore管理MinIO(S3)_hiveminio_BigDataToAI的博客-CSDN博客一.背景团队要升级大数据架构,需要摒弃hadoop,底层使用Minio做存储,应用层用trino火spark访问minio。在使用trino访问minio时,需要使用hive的metastoreservice,经过调查HMS(HiveMetastoreService)是可以独立于hive组件的,即不需要整体安装hive,只部署HMS就可以使用trino通过HMS来访问minio。二.环境和步骤1.一台cent
1、软件环境1.1大数据组件环境大数据组件版本Hive3.1.2Sparkspark-3.0.0-bin-hadoop3.21.2操作系统环境OS版本MacOSMonterey12.1Linux-CentOS7.62、大数据组件搭建2.1Hive环境搭建1)HiveonSpark说明Hive引擎包括:默认mr、spark、Tez。HiveonSpark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。SparkonHive:Hive只作为存储元数据,Spark负责SQL解析优化,语法是SparkSQL语法,Spark负责
1.数据库操作1.1创建数据库createdatabasetestcomment'Justfortest'location'/abcd'withdbproperties('aaa'='bbb');comment后面指的是注释;location后面是数据库存放路径;dbproperties代表了数据库的属性ps.避免要创建的数据库已经存在错误,增加ifnotexists判断:createdatabaseifnotexistsdb_hive;1.2 查询数据库 1)显示数据库showdatabases;2) 过滤显示查询的数据库showdatabaseslikedb_hive; 3)查看数据库信息
1Hive下载Hive官网地址:https://hive.apache.org/下载地址:http://www.apache.org/dyn/closer.cgi/hive/2Hive安装与启动2.1Hive安装把安装文件apache-hive-3.1.2-bin.tar.gz上传到master节点的/opt/software目录下,执行以下命令把安装文件解压到/opt/app目录中cd/export/softwaretar-zxvfapache-hive-3.1.2-bin.tar.gz-C/export/server进入/opt/app目录,为目录apache-hive-3.1.2-bin
QueryID=root_20230914161708_a293bd1f-62bb-4a28-a477-97f71fc745b4Totaljobs=3LaunchingJob1outof3Numberofreducetasksdeterminedatcompiletime:1Inordertochangetheaverageloadforareducer(inbytes): sethive.exec.reducers.bytes.per.reducer=Inordertolimitthemaximumnumberofreducers: sethive.exec.reducers.max=Ino
Hadoop高可用集群完全分布式安装教程一篇就够用(zookeeper、spark、hbase、mysql、hive)写在之前,Hadoop完全分布式集群资源配置规划情况一、全局基本配置💡建议一开始安装的时候在网络配置项的地方,选择自动ipv4,然后进行ip设置1、更改静态网络命令如下:#检查虚拟机是否能够ping通www.baidu.comservicenetworkrestart#尝试重启网络服务#修改网络服务为静态网络指定路由以及DNS服务器vim/etc/sysconfig/network-scripts/ifcfg-ens33文件内容如下:TYPE=EthernetPROXY_MET
1.数据采样采样函数:tablesample(bucketxoutofy[oncolumn])使用位置:查询的时候,紧紧跟在表名的后面,如果表名有别名,必须放置别名的前面普通表:说明:x:从第几个桶进行采样,x不能大于yy:临时分几个桶column:分桶的字段,可以省略分桶表:说明:x:从第几个桶开始进行采样,x不能大于yy:抽样比例y必须是桶表的分桶数量的倍数或者因子column:分桶的字段,可以省略分桶表抽样案例:1)假设A表有10个桶,请分析,下面的采样函数,会将那些桶抽取出来呢?tablesample(bucket2outof5onxxx)会抽取出几个桶数据呢?总桶数/抽样比例=分桶数
1、concat()1.1、用法:concat(str1,str2,str3,…)连接参数的函数,返回结果为连接参数的字符串。如果有一个参数为NULL,则返回的结果为NULL。1.2、示例concat('a','b','c')----'abc'concat('a',null,'c')----null2、concat_ws()2.1、用法:concat_ws('分隔符',str1,str2,…)concat()的一个特殊形式,表示concatwithseparator,两个参数之间加上特定的分隔符。返回的是用指定分隔符连接参数的字符串。如果分割符为null,则返回null,参数为null,则忽略
1窗口函数语法分析函数/专用窗口函数over(partitionby列名orderby列名rowsbetween开始位置and结束位置)常用的分析函数常用的分析函数:sum()、max()、min()、avg()、count()常用的专用窗口函数专用窗口函数:row_number()、rank()、dense_rank()窗口函数窗口函数的3个组成部分可以单独使用,也可以混合使用,也可以全部不用over(partitionby列名orderby列名rowsbetween开始位置and结束位置)partitionby对指定的字段进行分组,后续都会以组为单位,把每个分组单独作为一个窗口进行统计分析
目录一、概述二、FineBI介绍及安装 (1)安装包下载 (2)安装 (3)配置Hive连接驱动 (4)安装插件 (5)新建Hive连接一、概述 BI:BusinessIntelligence,商业智能。指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。简单来说,就是借助BI工具,可以完成复杂的数据分析、数据统计等需求,为公司决策带来巨大的价值。 常见BI软件有: ①FineBI ②SuperSet ③PowerBI ④TableAu二、FineB