草庐IT

Spark SQL数据源:Hive表

文章目录一、SparkSQL支持读写Hive二、Spark配置hive-site.xml三、准备工作(一)启动Hive的metastore(二)启动SparkShell四、Spark读写Hive数据(一)导入SparkSession(二)创建SparkSession对象(三)执行HiveQL语句1、创建Hive表2、导入本地数据到Hive表3、查询Hive表数据4、创建表时指定存储格式5、将数据帧数据写入Hive表6、导入HDFS数据到Hive表(四)在Hive客户端查看生成的hive表一、SparkSQL支持读写HiveSparkSQL还支持读取和写入存储在ApacheHive中的数据。然而

Hive+Spark离线数仓工业项目--ODS层及DWD层构建(2)

ODS层构建:代码导入目标:实现Python项目代码的导入及配置实施 Oracle本地驱动目录**:将提供的**instantclient_12_2**目录放入D盘的根目录下 PyHive本地连接配置:将提供的CMU目录放入C盘的根目录下auto_create_hive_table包  创建路径包    -在datatohive的init文件中放入如下代码   -其他包的init都放入如下内容将对应的代码文件放入对应的包或者目录中   step1:从提供的代码中复制config、log、resource这三个目录直接粘贴到**auto_create_hive_table**包下   step2

HIVE获取json字段特定值(单个json或者json数组)

1.获取单个json字符串里的某一特定值函数:get_json_object(单个json,‘$.要获取的字段’)示例:代码:SELECTget_json_object(‘{“NAME”:“张三”,“ID”:“1”}’,‘$.NAME’)asname;SELECTget_json_object(‘{“NAME”:“张三”,“ID”:“1”}’,‘$.NAME’);2.json_tuple语法:json_tuple(json_string,k1,k2…)说明:解析json的字符串json_string,可指定多个json数据中的key,返回对应的value。如果输入的json字符串无效,那么返回

大数据组件的区别总结(hive,hbase,spark,flink)

    Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序,hive和spark的区别就是mapreduce和spark的区别。HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库,是一种面向列族存储的非关系型数据库。Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。(1)hive和spark的区别1.hive主要是基于磁盘的,spark主要是基于内存的,DAG机制的计算模型,减少shuff

Hive初始化报错Exception in thread “main“ java.lang.NoSuchMethodError: com.google.common.base.Precondition

Hive3.1.3在执行初始化配置命令bin/schematool-dbTypederby-initSchema的时候报下方错误[root@hadoop100hive-3.1.3]#bin/schematool-dbTypederby-initSchemaSLF4J:ClasspathcontainsmultipleSLF4Jbindings.SLF4J:Foundbindingin[jar:file:/opt/module/hive-3.1.3/lib/log4j-slf4j-impl-2.17.1.jar!/org/slf4j/impl/StaticLoggerBinder.class]S

Hive初始化报错Exception in thread “main“ java.lang.NoSuchMethodError: com.google.common.base.Precondition

Hive3.1.3在执行初始化配置命令bin/schematool-dbTypederby-initSchema的时候报下方错误[root@hadoop100hive-3.1.3]#bin/schematool-dbTypederby-initSchemaSLF4J:ClasspathcontainsmultipleSLF4Jbindings.SLF4J:Foundbindingin[jar:file:/opt/module/hive-3.1.3/lib/log4j-slf4j-impl-2.17.1.jar!/org/slf4j/impl/StaticLoggerBinder.class]S

安装Hive

#2023博客之星–城市之星领跑者活动开启#安装Hive准备安装Java环境:Hive需要Java环境支持,所以需要先安装Java。安装文档:http://t.csdn.cn/deBJu安装MySQL数据库。http://t.csdn.cn/d24pN下载Hive下载Hive的二进制文件。链接:https://pan.baidu.com/s/1fdg76k9kvd896pMpfYEG5w提取码:8888解压Hive将下载的Hive压缩包解压到指定目录。[root@master~]#cd/usr/local[root@masterlocal]#ll总用量279464-rw-r--r--.1roo

hive向上取整、向下取整、保留小数位的函数

hivesql向上取整、向下取整、保留小数位的函数1.向上取整函数ceiling()示例:selectceiling(10.1)结果:112.向下取整函数floor()示例:selectfloor(10.9)结果:103.四舍五入保留指定小数位round(a,b),a参数是需要处理的数据,b参数是需要保留的小数位示例:selectround(10.562,1)结果:10.6

Spark写入Hive报错Mkdir failed on :com.alibaba.jfs.JindoRequestPath

1.报错内容23/05/3114:32:13INFO[Driver]FsStats:cmd=mkdirs,src=oss://sync-to-bi.[马赛克].aliyuncs.com/tmp/hive,dst=null,size=0,parameter=FsPermission:rwx-wx-wx,time-in-ms=32,version=3.5.023/05/3114:32:13ERROR[Driver]ApplicationMaster:Userclassthrewexception:org.apache.spark.sql.AnalysisException:java.lang.Ru

【大数据Hive】Hive 窗口函数使用详解

目录一、前言二、hive窗口函数概述2.1聚合函数与窗口函数差别2.1.1创建一张表2.1.2加载数据到表中2.1.3sum+groupby普通常规聚合操作2.1.4sum+窗口函数聚合操作三、窗口函数3.1窗口函数语法3.2 参数说明3.2.1Function(arg1,...,argn)3.2.2OVER[PARTITIONBY]3.2.3[ORDERBY]3.2.4[]3.3 窗口函数使用操作演示3.3.1数据准备3.3.2窗口聚合函数的使用3.3.3sum+窗口函数3.3.4求出每个用户总pv数3.3.5求出每个用户截止到当天,累积的总pv数3.4 窗口表达式3.5窗口表达式案例演示3