草庐IT

hive-overwrite

全部标签

从Hive源码解读大数据开发为什么可以脱离SQL、Java、Scala

从Hive源码解读大数据开发为什么可以脱离SQL、Java、Scala前言【本文适合有一定计算机基础/半年工作经验的读者食用。立个Flg,愿天下不再有肤浅的SQLBoy】谈到大数据开发,占据绝大多数人口的就是SQLBoy,不接受反驳,毕竟大数据主要就是为机器学习和统计报表服务的,自然从Oracle数据库开发转过来并且还是只会写几句SQL的人不在少数,个别会Python写个spark.sql(“一个sql字符串”)的已经是SQLBoy中的人才。这种只能处理结构化表的最基础的大数据开发人员,就是我们常提到的梗:肤浅的SQLBoy。。。对大数据完全不懂,思想还停留在数据库时代,大数据组件也都是拿来当

Hudi集成Hive时的异常解决方法 java.lang.ClassNotFoundException: org.apache.hudi.hadoop.HoodieParquetInputFormat

Hudi0.10.0集成Hive时的异常及解决方法:java.lang.ClassNotFoundException:org.apache.hudi.hadoop.HoodieParquetInputFormat异常信息使用HiveCLI连接Hive3.1.2并查询对应的Hudi映射的Hive表,发现如下异常:hive(flk_hive)>select*fromstatus_h2hlimit10;22/10/2415:22:07INFOconf.HiveConf:Usingthedefaultvaluepassedinforlogid:0f8a42a6-8195-413a-90dc-a31f7

Hudi集成Hive时的异常解决方法 java.lang.ClassNotFoundException: org.apache.hudi.hadoop.HoodieParquetInputFormat

Hudi0.10.0集成Hive时的异常及解决方法:java.lang.ClassNotFoundException:org.apache.hudi.hadoop.HoodieParquetInputFormat异常信息使用HiveCLI连接Hive3.1.2并查询对应的Hudi映射的Hive表,发现如下异常:hive(flk_hive)>select*fromstatus_h2hlimit10;22/10/2415:22:07INFOconf.HiveConf:Usingthedefaultvaluepassedinforlogid:0f8a42a6-8195-413a-90dc-a31f7

Hive自定义UDF函数详解

Hive自定义UDF函数详解一、UDF概述二、UDF种类三、如何自定义UDF四、自定义实现UDF和UDTF4.1需求4.2项目pom文件4.3Hive建表测试及数据4.4UDF函数编写4.5UDTF函数编写4.6UDTF使用一、UDF概述UDF全称:User-DefinedFunctions,即用户自定义函数,在HiveSQL编译成MapReduce任务时,执行java方法,类似于像MapReduce执行过程中加入一个插件,方便扩展。二、UDF种类UDF:操作单个数据行,产生单个数据行;UDAF:操作多个数据行,产生一个数据行;UDTF:操作一个数据行,产生多个数据行一个表作为输出;三、如何自

Hive自定义UDF函数详解

Hive自定义UDF函数详解一、UDF概述二、UDF种类三、如何自定义UDF四、自定义实现UDF和UDTF4.1需求4.2项目pom文件4.3Hive建表测试及数据4.4UDF函数编写4.5UDTF函数编写4.6UDTF使用一、UDF概述UDF全称:User-DefinedFunctions,即用户自定义函数,在HiveSQL编译成MapReduce任务时,执行java方法,类似于像MapReduce执行过程中加入一个插件,方便扩展。二、UDF种类UDF:操作单个数据行,产生单个数据行;UDAF:操作多个数据行,产生一个数据行;UDTF:操作一个数据行,产生多个数据行一个表作为输出;三、如何自

Hive sql 行列转换(行转列,列转行)

在Hivesql应用中会遇到“行转列”和“列转行”的场景,下面介绍其基本使用语法。1.行转列:关键字:collect_set()/collect_list()、concat_ws()1)collect_set()/collect_list():collect_set()函数只接受基本数据类型,作用是对参数字段进行去重汇总,返回array类型字段;collect_list()函数和collect_set()作用一样,只是前者不去重,后者去重。2)concat_ws():concat_ws(separator,字符串A/字段名A,字符串B/字段名B…)是concat的特殊形式,第一个参数是分隔符,

Hive 中的爆炸函数( lateral view 与 explode 用法)

使用场景:explode就是将hive一行中复杂的array或者map结构拆分成多行。lateralview用于和split,explode等函数一起使用,它能够将一行数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。lateralview首先为原始表的每行调用UDTF,UDTF会把一行拆分成一或者多行,lateralview再把结果组合,产生一个支持别名表的虚拟表,这里生成的是一个虚拟表。explode将复杂结构一行拆成多行,然后再用lateralview做各种聚合。 具体使用方法(1):如下数据: 表名为 table_name_01 中存放两个字段,每个字段值的填充都很完整,现在需要

Hive安装与配置及常见问题解决

 目录1.前期准备2.安装HIVE并配置2.1上传HIVE安装包2.2添加Hive核心配置,选择远程MySQL模式 2.3给mysql赋予权限 2.4配置环境变量2.5初始化Hive3.常见问题3.1配置hive-env.sh3.2配置hive-site.xml时1.前期准备需要3台虚拟需要并安装好java运行环境JDK需要搭建配置好Hadoop集群并启动同时需要安装有mysql2.安装HIVE并配置2.1上传HIVE安装包    上传至/opt/software/        解压并重命名        在hive的lib下添加一个mysql-connect-jar2.2添加Hive核心配

Hive安装与配置及常见问题解决

 目录1.前期准备2.安装HIVE并配置2.1上传HIVE安装包2.2添加Hive核心配置,选择远程MySQL模式 2.3给mysql赋予权限 2.4配置环境变量2.5初始化Hive3.常见问题3.1配置hive-env.sh3.2配置hive-site.xml时1.前期准备需要3台虚拟需要并安装好java运行环境JDK需要搭建配置好Hadoop集群并启动同时需要安装有mysql2.安装HIVE并配置2.1上传HIVE安装包    上传至/opt/software/        解压并重命名        在hive的lib下添加一个mysql-connect-jar2.2添加Hive核心配

Spark-SQL连接Hive的五种方法

一、内嵌的Hive若使用Spark内嵌的Hive,直接使用即可,什么都不需要做(在实际生产活动中,很少会使用这一模式)二、外部的Hive步骤:将Hive中conf/下的hive-site.xml拷贝到Spark的conf/目录下;把Mysql的驱动copy到jars/目录下;如果访问不到hdfs,则将core-site.xml和hdfs-site.xml拷贝到conf/目录下;重启spark-shell;可以查看到数据库及表,则表明spark-shell连接到外部已部署好的Hive。三、运行Sparkbeeline步骤:将Hive中conf/下的hive-site.xml拷贝到Spark-lo