草庐IT

hive-overwrite

全部标签

hive lateral view 实践记录(Array和Map数据类型)

目录一、Array1.建表并插入数据 2.lateralviewexplode二、Map1、建表并插入数据2、lateralviewexplode()3、查询数据一、Array1.建表并插入数据正确插入数据:createtabletmp.test_lateral_view_movie_230829(moviestring,categoryarray);insertintotmp.test_lateral_view_movie_230829select'《战狼3》',array('战争','动作','剧情');insertintotmp.test_lateral_view_movie_23082

pyspark 判断 Hive 表是否存在

Catalog.tableExists(tableName:str,dbName:Optional[str]=None)→bool'''tableName:表名dbName:库名(可选)return:bool值'''frompyspark.sqlimportSparkSessionspark=SparkSession\.builder\.appName('tableExists')\.config('spark.num.executors','6')\.config('spark.executor.memory','12g')\.config('spark.driver.memory','2g

doris配置hive的catalog

创建hive的catalogCREATECATALOGhivePROPERTIES('type'='hms','hive.metastore.uris'='thrift://192.168.201.11:9083','hadoop.username'='hive','dfs.nameservices'='your-nameservice',

将Parquet文件的数据导入Hive 、JSON文件导入ES

文章目录将Parquet文件的数据导入Hive查询parquet文件格式编译cli工具查看元数据信息查询抽样数据创建hive表数据存储格式采用parquet加载文件将json数据导入ESES批量导入api原始json文件内容索引结构重组json脚本重组后的json文件bulkapi调用将Parquet文件的数据导入Hive查询parquet文件格式主要利用社区工具https://github.com/apache/parquet-mr/编译cli工具cdparquet-cli;mvncleaninstall-DskipTests;查看元数据信息java-cpparquet-cli-1.13.1

HIVE SQL实现分组字符串拼接concat

在Mysql中可以通过group_concat()函数实现分组字符串拼接,在HIVESQL中可以使用concat_ws()+collect_set()/collect_list()函数实现相同的效果。实例:abc2014B92015A82014A102015B72014B61.concat_ws+collect_list非去重拼接selecta ,concat_ws('-',collect_list(b))ascol_b ,concat_ws('-',collect_list(cast(casstring)))ascol_cfromtb_namegroupbya;查询结果:acol_bcol_

【大数据之Hive】十六、Hive-HQL函数之窗口函数(开窗函数)

1概述  先定义了窗口的大小(按行来算),然后对窗口内的行的数据进行计算,再将计算结果返回给改行。  窗口函数包括窗口和函数两部分,窗口用于定义计算范围,函数用于定义计算逻辑,窗口函数只会在原来的表上增加一列结果列,不改变原来的数据。1.1窗口函数使用语法--窗口函数使用语法select...,函数(col_name)over(窗口范围)result_col_name-表示在窗口范围之上应用函数逻辑fromtable_name;函数:  绝大多数聚合函数都可以配合窗口使用,如max(),min(),sum(),count(),avg()等。窗口:  分为两种,一种是基于行的,一种是基于值的。 

大数据之使用Spark全量抽取MySQL的数据到Hive数据库

文章目录前言一、读题分析二、使用步骤1.导入配置文件到pom.xml2.代码部分三、重难点分析总结前言本题来源于全国职业技能大赛之大数据技术赛项赛题-离线数据处理-数据抽取(其他暂不透露)题目:编写Scala代码,使用Spark将MySQL的shtd_industry库中表EnvironmentData,ChangeRecord,BaseMachine,MachineData,ProduceRecord全量抽取到Hive的ods库(需自建)中对应表environmentdata,changerecord,basemachine,machinedata,producerecord中。以下面题目为

Hive内部表和外部表

表类型详解表分类在Hive中,表类型主要分为两种第一种:内部表也叫管理表表目录会创建在集群上的{hive.metastore.warehouse.dir}下的相应的库对应的目录中。默认创建的表就是内部表第二种:外部表外部表需要使用关键字"external",外部表会根据创建表时LOCATION指定的路径来创建目录,如果没有指定LOCATION,则位置跟内部表相同,一般使用的是第三方提供的或者公用的数据。建表语法:必须指定关键字external。createexternaltabletableName(idint,namestring)[location'path'];--语法:createex

一百六十、Kettle——Linux上安装的Kettle9.2.0连接Hive3.1.2

一、目标Kettle9.2.0在Linux上安装好后,需要与Hive3.1.2数据库建立连接之前已经在本地上用kettle9.2.0连上Hive3.1.2二、各工具版本(一)kettle9.2.0  kettle9.2.0安装包网盘链接链接:https://pan.baidu.com/s/15Zq9wNDwyMnc3qFVxYOMXw?pwd=zwae 提取码:zwae(二)Hive3.1.2 (三)Hadoop3.1.3三、前提准备(一)Kettle9.2.0已在Linux上安装好(二)注意Kettle9.2里MySQL驱动包的版本以及Hive312里MySQL驱动包的版本1、Hive312

hive SQL: case when + group by 的用法

假设有一个数据表,包含了不同人员的信息,其中包括姓名、性别、年龄等字段。现在需要统计不同年龄区间的人数,并按照年龄区间进行分组。可以使用如下SQL语句实现:```SELECT  CASE   WHENageBETWEEN0AND10THEN'0-10'   WHENageBETWEEN11AND20THEN'11-20'   WHENageBETWEEN21AND30THEN'21-30'  WHENageBETWEEN31AND40THEN'31-40'  ELSE'40以上' ENDASage_group,  COUNT(*)AScountFROM  personGROUPBY  CASE