草庐IT

hive空值、NULL值判断

首先我们要明白:在hive中空值和NULL是不等价的1.一种标示为NULLcolumn1column2dsfNULLDFSDFSddfff2.一种没有标示直接为空值column1column2dfsfdfsfd如果是第一种,在表中显示为NULL,则在底层数据中,保存的可能为NULL或\n此时通过语句column2isnull即可查询为NULL的字段如果为第二种,在表中没有值,其表示的为字段不为null且为空字符串的值此时要通过column2="或者length(column2)=0下面补充一个如何处理hive的NULL值hive中并没有sqlserver的isnull()函数也没有mysql的

Hive截取指定位子或字符后面的数据

Hive截取指定字符后面的数据一、规则1、样例数据Hive.Spark.Flink.HadoopJava.Python.Scala2、题目要求截取最后一个’.'后面的数据3、结果预览HadoopScala二、思路方法1使用substr()函数,在通过instr()函数找到结束位子,为了保证每次截取的都是最后一个’.'后面的数据,这里使用字符串反转函数reverse()。selectreverse(substr(reverse('Hive.Spark.Flink.Hadoop'),0,instr(reverse('Hive.Spark.Flink.Hadoop'),'.')-1));select

hive之left semi join(左半连接)使用方法

目录一、建表数据准备二、语法三、leftsemijoin例子四、leftsemijoin、join、leftjoin的区别1、leftsemijoin2、leftjoin3、join结语一、建表数据准备参考hive之fullouterjoin(全连接)使用方法_IMezZ的博客-CSDN博客目录介绍语法例子创建顾客表:customers创建订单表:ordersfullouterjoin语句leftjoin+union+rightjoin语句介绍fullouterjoin结合了LEFTJOIN和RIGHTJOIN的结果,并使用NULL值作为两侧缺失匹配结果。语法SELECTtable1.colu

Hive表DDL操作(一)

第1关:Create/Alter/Drop数据库创建数据库的语法为:DATABASE|SCHEMA:用于限定创建数据库或数据库模式IFNOTEXISTS:目标对象不存在时才执行创建操作(可选)COMMENT:起注释说明作用LOCATION:指定数据库位于HDFS上的存储路径。若未指定,将使用${hive.metastore.warehouse.dir}定义值作为其上层路径位置WITHDBPROPERTIES:为数据库提供描述信息,如创建database的用户或时间修改数据库的语法为:ALTER(DATABASE|SCHEMA)database_nameSETDBPROPERTIES(prope

Hive数据操作

Hive数据操作1.数据的装载向管理表中装载数据(1)装载数据的方式:​overwriteinto为覆写,单独使用into为追加写入。(2)装载数据的过程:​使用本地路径装载时,执行过程为复制。从HDFS路径装载数据,执行过程为移动。#装载本地系统上的数据文件(本地路径为绝对路径)hive>loaddatalocalinpath'/usr/local/word.txt'[overwrite]intotabletb_name;#从HDFS路径装载数据文件hive>loaddatainpath'/user/hive/data/words.txt'[overwirte]intotabletb_nam

hive 从入门到精通

目录hive入门到精通hive部署启动Hadoop检查MySQL是否启动成功安装hivehive-env.shhive-site.xml需要修改的位置提炼如下:上传MySQL连接驱动jar包到hive安装目录的lib目录下:guava版本冲突配置环境变量初始化hive的元数据库远程模式体验编程DDL操作数据库创建数据库查询数据库修改数据库删除数据库切换数据库DML操作数据表基本数据类型内部表外部表部表与外部表转换查看表修改表删除表清除表DQL准备数据单表查询综合练习高级聚合函数分组排序取TopNUDTFUDTF案例分组和去重开窗函数聚合函数跨行取值leadlagfirst_valuelast_

Hive的安装与配置详解

准备:打开三台虚拟机,并且连接好xshell1.上传apache-hive-2.3.3-bin.tar.gz压缩包文件到/opt/software目录下,可以使用rz命令,选择路径上传,也可以直接把文件从本地拖拽致xshell内,也可以使用xftp来传输。解压apache-hive-2.3.3-bin.tar.gz到指定文件夹目录下修改文件夹名,此步骤可忽略:3.在/opt/software/hive-2.3.3/lib目录下上传mysql连接包4.在Hive的conf目录下下添加以下配置信息:vihive-site.xml                     javax.jdo.opti

hive on spark hql 插入数据报错 Failed to create Spark client for Spark session Error code 30041

文章目录一、遇到问题二、排查过程:0、确认hive、spark版本1、确认SPARK_HOME环境变量2、hive创建的spark配置文件3、确认是否创建hdfs存储历史日志路径4、确认是否上传Spark纯净版jar包5、确认hive-site.xml配置文件三、解决问题四、后记一、遇到问题离线数仓hiveonspark模式,hive客户端sql插入数据报错Failedtoexecutesparktask,withexception'org.apache.hadoop.hive.ql.metadata.HiveException(FailedtocreateSparkclientforSpar

Hive同步数据到ES

第一步:下载需要的jar包,必须的是es-hadoop的包 elasticsearch-hadoop-5.5.1.jar下载地址:http://download.elastic.co/hadoop/到官网下载与ES一致的版本,比如ES版本是5.5.1,则下载elasticsearch-hadoop-5.5.1.zip第二步:如下是放到hadoop根目录的jars目录下[hadoop@masterlib]$hadoopfs-putelasticsearch-hadoop-5.5.1.jar/jars/第三步:在hive中添加jar包,ADDJARhdfs://nmcluster/user/roo

Hive表的基础查询操作

Hive的表查询1.前置准备实验环境OracleLinux7.4Java1.8.0_144Hadoop2.7.4Hive2.1.1实验数据查看完userinfo1.txt文件内容查看完userinfo2.txt文件内容数据文件stocks.csv内容stocks.csv内容以逗号“,”分隔,依次记录股票代码、股票交易日期、股票开盘价、股票开盘价、股票最低价、股票收盘价、股票交易量和股票成交价。2.实验流程2.1创建表创建外部表userinfos存放数据CREATEexternalTABLEuserinfos(unameSTRING,salaryFLOAT,familyARRAYSTRING>,