目录一、JDK的安装1、安装jdk2、配置Java环境变量 3、加载环境变量4、进行校验二、hadoop的集群搭建1、hadoop的下载安装 2、配置文件设置2.1.配置hadoop-env.sh2.2.配置 core-site.xml2.3.配置hdfs-site.xml2.4.配置yarn-site.xml2.5.配置mapred-site.xml2.6.配置workers(伪分布式不配置) 2.7配置sbin下启停命令3、复制hadoop到其他节点(伪分布式不执行此步)4、Hdfs格式化 5、启动hdfs分布式文件系统三、msyql安装1、卸载旧MySQL文件2、下载mysql安装包3
文章目录1.概述1.1窗口函数的partitionby与groupby的分组有什么区别?1.2窗口函数采用排序会改变原数据的顺序吗?1.3窗口函数的orderby+orderby的排序有区别吗?2.语法2.1哪些函数可以开窗变为窗口函数?2.2语法----关于orderby的一个坑----关于窗口函数是否可以嵌套---关于caseend中是否可以用窗口函数2.3窗口函数执行顺序3.窗口聚合函数3.1sum()窗口函数的一个注意点3.2一个案例3.3聚合函数会导致行数变少,是如何处理的?4.窗口排名函数4.1求TopN4.2求几分之几5.窗口分析函数6.关于窗口函数的一些思考6.1窗口函数别名6
目录一、UDF概述二、编写自定义UDF1.创建项目2.pom.xml文件添加依赖3.编写工具类及自定义UDF类4.打包5.测试jar6.上传至服务器、HDFS并给jar包赋权7.添加到hive类路径并创建临时函数8.使用测试:9.临时函数、永久函数 一、UDF概述 UDF全称:User-DefinedFunctions,即用户自定义函数,在HiveSQL编译成MapReduce任务时,执行java方法,类似于像MapReduce执行过程中加入一个插件,方便扩展。二、编写自定义UDF1.创建项目 启动IDEA,创建MAVEN项目2.pom.xml文件添加依赖org.a
目录素材一、数据仓库简介1、数据仓库的认识(1)数据仓库是面向主题的。(2)数据仓库是随时间变化的。(3)数据仓库相对稳定(4)OLTP和OLAP2、数据仓库的结构(1)数据源(2)数据存储及管理(3)OLAP服务器(4)前端工具3、数据仓库的数据模型(1)星状模型(2)雪花模型(3)事物表和维度表的认识二、Hive的简介1、Hive的认识2、Hive系统架构(1)用户接口(2)跨语言服务(ThriftServer)(3)底层的驱动引擎(4)元数据存储系统(Metastore)3、Hive工作原理4、Hive数据模型(1)数据库(2)表(3)分区(4)桶表三、Hive的安装1、Hive安装模式
【大家好,我是爱干饭的猿,本文重点介绍、SparkSQL的运行流程、SparkSQL的自动优化、Catalyst优化器、SparkSQL的执行流程、SparkOnHive原理配置、分布式SQL执行引擎概念、代码JDBC连接。后续会继续分享其他重要知识点总结,如果喜欢这篇文章,点个赞👍,关注一下吧】上一篇文章:《【SparkSQL】SparkSQL函数定义(重点:定义UDF函数、使用窗口函数)》5.SparkSQL的运行流程5.1SparkRDD的执行流程回顾代码->DAG调度器逻辑任务->Task调度器任务分配和管理监控->Worker干活5.2SparkSQL的自动优化RDD的运行会完全按照
1、问题描述: 启动hive后,输入命令:showdatabases; 后会卡顿一会儿并报错:FAILED:SemanticExceptionorg.apache.hadoop.hive.ql.metadata.HiveException:java.lang.RuntimeException:Unabletoinstantiateorg.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient报错原因是hive连接不上mysql2、解决方案:1.我认为是因为hive-site.xml中的配置问题,比如之前忘记过密码,然后修改过mysql
一.问题重现SQL错误[2][08S01]:Errorwhileprocessingstatement:FAILED:ExecutionError,returncode2fromorg.apache.hadoop.hive.ql.exec.mr.MapRedTaskErrorwhileprocessingstatement:FAILED:ExecutionError,returncode2fromorg.apache.hadoop.hive.ql.exec.mr.MapRedTaskErrorwhileprocessingstatement:FAILED:ExecutionError,retu
一、创建一张Hive测试表createtabletest_oracle_hive(id_codestring,phone_codestring,statusstring,create_timestring)partitionedby(partition_datestring)ROWFORMATDELIMITEDFIELDSTERMINATEDBY',';创建分区字段partition_date,指定分隔符“,”二、编写Sqoop数据同步命令我这里使用的是shell脚本的方式:#!/bin/bashexportLANG="en_US.UTF-8"part_date=etl_date=`date"
业务中经常会遇到这种需求:数据每天全量更新,但是要求月底将数据单独保存一份以供后期查询某月节点的信息。这时就要考虑用到Hive的分区表实现,即按照月份创建分区表,相当于新的月份数据保存在新表,进而实现保存了历史数据。分区表创建分区表的创建本质是在HDFS创建了一个分区字段为名称的文件夹,插入数据时根据分区字段取值插入到文件中。静态分区表定义:静态分区在插入数据时要指定分区名,支持load、insert两种插入方式,主要用于分区少,分区名可以确定的情况。动态分区表定义:动态分区在插入数据时根据指定字段取值生成分区,只能使用insert方式插入数据。在定义时如果既有静态分区字段又有动态分区字段,动
hive对于敏感数据的加密还不够完善,现在开发一个udf函数,自己设置密钥(hive的加密函数等级比较低,也没有集成自己加密的密钥函数,所以自己开发一个),如果要加密一些数据则可以自己使用特定的密钥进行加密解密,这样很好的方便数据的加密下面将实现过程如下:1,写一个Java类专门进行加密算法,这个代码网上很多都写好了,可以直接抄一个过来,代码如下:packagehive_udf;importsun.misc.BASE64Decoder;importsun.misc.BASE64Encoder;importjavax.crypto.*;importjavax.crypto.spec.Secret