草庐IT

hive-overwrite

全部标签

hive-sql

hive-常用SQL汇总查看数据库--查看所有的数据库showdatabases;使用默认的库--下面的语句可以查看默认的库usedefault;查看某个库下的表--查看所有的表showtables;--查看包含stu的表,这种是通配的方法来查看showtableslike'*stu*';查看建表语句--查看某个表的建表语句这个语句可以看到表的存储方式,存储HDFS目录showcreatetableedw.test;

Hive中数据分区与索引的使用技巧

作者:禅与计算机程序设计艺术1.简介ApacheHive是一种基于Hadoop框架的开源分布式数据库系统,可以将结构化的数据文件加载到HDFS中并提供SQL查询功能。Hive通过表、分区和索引对数据进行组织和存储。本文介绍了Hive中数据分区的创建及管理方法,包括:分区类型与分类创建分区的两种方式及其区别分区的优点与局限性案例分析:案例1:分区合并;案例2:实时统计;案件3:日均数据加载;案例4:不同业务数据分区隔离。第2节介绍了Hive中的索引(Indexing)的相关知识,主要阐述了索引的概念、分类、创建方法及其优缺点,并基于实例给出使用建议。第三节对比了Hive的查询效率与索引的关系,给

16、Flink 的table api与sql之连接外部系统: 读写外部系统的连接器和格式以及Apache Hive示例(6)

Flink系列文章1、Flink部署、概念介绍、source、transformation、sink使用示例、四大基石介绍和示例等系列综合文章链接13、Flink的tableapi与sql的基本概念、通用api介绍及入门示例14、Flink的tableapi与sql之数据类型:内置数据类型以及它们的属性15、Flink的tableapi与sql之流式概念-详解的介绍了动态表、时间属性配置(如何处理更新结果)、时态表、流上的join、流上的确定性以及查询配置16、Flink的tableapi与sql之连接外部系统:读写外部系统的连接器和格式以及FileSystem示例(1)16、Flink的ta

hive/spark数据倾斜解决方案

Hive数据倾斜以及解决方案1、什么是数据倾斜数据倾斜主要表现在,mapreduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条Key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完。2、数据倾斜的原因及现象一些操作导致的数据倾斜:主要原因:key分布不均匀业务数据本身的特性建表时考虑不周某些SQL语句本身就有数据倾斜现象:任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)r

Hive关联时丢失数据问题和常用的Hive SQL参数设置

问题描述:描述1:表A存在主键为1的数据行,表B也存在主键为1的数据行,表Aleftjoin表B,取主键为1的数据行时,表B数据缺失。描述2:基于描述1,count(表B字段)数据时,计数行数不准确(主要表现为缺数据)针对结果的发生,本文从以下方面分析原因及提供解决方案:右表没有匹配的数据关联键数据类型不匹配受count列null值影响Hive版本问题,在某些版本中,左连可能导致右表为null数据倾斜并在文末附属了HiveSQL常用参数设置的说明。下面进行逐一分析1.右表没有匹配的数据SQL基础,略。2.关联键数据类型不匹配首先要确定一个问题,Hive会不会自动匹配两表类型?下面开始验证2.1

「Hive进阶篇」万字长文超详述hive企业级优化

肝了几个晚上,梳理总结了一份万字长文超详述hive企业级优化文章,也整理了一份hive优化总结思维导图和hive优化详细PDF文档,有需要可关注公众号《大数据阶梯之路》找小编获取,学习和复习都是绝佳,公众号不断分享技术相关文章。话不多说,??下面就直接开讲吧!更多精彩好文,首发在微信公众号《大数据阶梯之路》,欢迎关注一览群山.jpeg文章字数:13271字预计阅读需:20分钟一、问题背景hive离线数仓开发,一个良好的数据任务,它的运行时长一般是在合理范围内的,当发现报表应用层的指标数据总是产出延迟,排查定位发现是有些任务执行了超10小时这样肯定是不合理的,此时就该想想如何优化ETL任务链路,

Hive常用的日期函数

1.获取当前日期、时间、时间戳、时间戳对应日期--代码--selectcurrent_date()--当前日期,current_timestamp()--当前默认时间,from_utc_timestamp(current_timestamp(),'GMT+8')--转为东八区时间,unix_timestamp()--时间戳,from_unixtime(unix_timestamp())--时间戳对应时间(东八区),to_utc_timestamp(from_unixtime(unix_timestamp()),'GMT')--当前时间戳转为时间(默认时区)--结果--2023-02-01202

MySQL到TiDB:Hive Metastore横向扩展之路

一、背景大数据元数据服务HiveMetastoreService(以下简称HMS),存储着数据仓库中所依赖的所有元数据并提供相应的查询服务,使得计算引擎(Hive、Spark、Presto)能在海量数据中准确访问到需要访问的具体数据,其在离线数仓的稳定构建上扮演着举足轻重的角色。vivo离线数仓的Hadoop集群基于CDH5.14.4版本构建,HMS的版本选择跟随CDH大版本,当前使用版本为1.1.0-cdh5.14.4。vivo在HMS底层存储架构未升级前使用的是MySQL存储引擎,但随着vivo业务发展,数据爆炸式增长,存储的元数据也相应的增长到亿级别(PARTITION_PARAMS:8

Zeppelin(0.10.1版本)安装及创建hive解释器

 目录1.Zeppelin安装2.Zeppelin网页配置连接hive    利用Zeppelin工具操作hive,需确保电脑已经启动Hadoop集群和hiveserver2服务。    在master主机上的hive安装目录下启动hiveserver2服务[root@masterhive]#bin/hiveserver21.Zeppelin安装  将压缩包zeppelin-0.10.1-bin-all.tgz上传到master主机的/export/software目录下,并解压到/export/servers/目录下和重命名文件[root@master~]#cd/export/softwar

Spark on Hive——Spark远程连接Hive,对Hive中的表进行操作

目录1.开启hadoop集群2.开启mysql3.开启hive远程连接4.将hive下面的hive-site.xml和jar包拷贝到spark的conf目录下5.重启spark-shell6.查询数据库的表7.IDEA操作连接hive8.Spark读取Hive中的库9.Spark操作Hive中指定表10.Spark处理后的数据保存在Hive中——三种方法11.Spark连接Mysql,操作Mysql中的表       在Spark中操作Hive,此时的HIve基于内存,而不是MR,速度更快。1.开启hadoop集群start-dfs.shstart-yarn.sh2.开启mysqlmysql-