草庐IT

hive-overwrite

全部标签

datax 同步mongodb数据库到hive(hdfs)和elasticserch(es)

一、同步环境1.mongodb版本:3.6.3。(有点老了,后来发现flinkcdc都只能监控一张表,多张表无法监控)2.datax版本:自己编译的DataX-datax_v2022103.hdfs版本:3.1.34.hive版本:3.1.2二、同步思路1.增量数据:需要每隔1小时将mongodb中17个集合的数据同步至hive,因为有数据生成时间,才用datax查询方式,将上一个小时的数据依次循环调用datax同步至hdfs,利用shell脚本和调度器定时装载至hive中形成ods层,并和其他表关联处理形成dwd层,提供给需求方。2.全量数据:历史数据才用datax编写脚本循环读取+调度+h

Spark SQL数据源:Hive表

文章目录一、SparkSQL支持读写Hive二、Spark配置hive-site.xml三、准备工作(一)启动Hive的metastore(二)启动SparkShell四、Spark读写Hive数据(一)导入SparkSession(二)创建SparkSession对象(三)执行HiveQL语句1、创建Hive表2、导入本地数据到Hive表3、查询Hive表数据4、创建表时指定存储格式5、将数据帧数据写入Hive表6、导入HDFS数据到Hive表(四)在Hive客户端查看生成的hive表一、SparkSQL支持读写HiveSparkSQL还支持读取和写入存储在ApacheHive中的数据。然而

Hive+Spark离线数仓工业项目--ODS层及DWD层构建(2)

ODS层构建:代码导入目标:实现Python项目代码的导入及配置实施 Oracle本地驱动目录**:将提供的**instantclient_12_2**目录放入D盘的根目录下 PyHive本地连接配置:将提供的CMU目录放入C盘的根目录下auto_create_hive_table包  创建路径包    -在datatohive的init文件中放入如下代码   -其他包的init都放入如下内容将对应的代码文件放入对应的包或者目录中   step1:从提供的代码中复制config、log、resource这三个目录直接粘贴到**auto_create_hive_table**包下   step2

HIVE获取json字段特定值(单个json或者json数组)

1.获取单个json字符串里的某一特定值函数:get_json_object(单个json,‘$.要获取的字段’)示例:代码:SELECTget_json_object(‘{“NAME”:“张三”,“ID”:“1”}’,‘$.NAME’)asname;SELECTget_json_object(‘{“NAME”:“张三”,“ID”:“1”}’,‘$.NAME’);2.json_tuple语法:json_tuple(json_string,k1,k2…)说明:解析json的字符串json_string,可指定多个json数据中的key,返回对应的value。如果输入的json字符串无效,那么返回

大数据组件的区别总结(hive,hbase,spark,flink)

    Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序,hive和spark的区别就是mapreduce和spark的区别。HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库,是一种面向列族存储的非关系型数据库。Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。(1)hive和spark的区别1.hive主要是基于磁盘的,spark主要是基于内存的,DAG机制的计算模型,减少shuff

Hive初始化报错Exception in thread “main“ java.lang.NoSuchMethodError: com.google.common.base.Precondition

Hive3.1.3在执行初始化配置命令bin/schematool-dbTypederby-initSchema的时候报下方错误[root@hadoop100hive-3.1.3]#bin/schematool-dbTypederby-initSchemaSLF4J:ClasspathcontainsmultipleSLF4Jbindings.SLF4J:Foundbindingin[jar:file:/opt/module/hive-3.1.3/lib/log4j-slf4j-impl-2.17.1.jar!/org/slf4j/impl/StaticLoggerBinder.class]S

Hive初始化报错Exception in thread “main“ java.lang.NoSuchMethodError: com.google.common.base.Precondition

Hive3.1.3在执行初始化配置命令bin/schematool-dbTypederby-initSchema的时候报下方错误[root@hadoop100hive-3.1.3]#bin/schematool-dbTypederby-initSchemaSLF4J:ClasspathcontainsmultipleSLF4Jbindings.SLF4J:Foundbindingin[jar:file:/opt/module/hive-3.1.3/lib/log4j-slf4j-impl-2.17.1.jar!/org/slf4j/impl/StaticLoggerBinder.class]S

安装Hive

#2023博客之星–城市之星领跑者活动开启#安装Hive准备安装Java环境:Hive需要Java环境支持,所以需要先安装Java。安装文档:http://t.csdn.cn/deBJu安装MySQL数据库。http://t.csdn.cn/d24pN下载Hive下载Hive的二进制文件。链接:https://pan.baidu.com/s/1fdg76k9kvd896pMpfYEG5w提取码:8888解压Hive将下载的Hive压缩包解压到指定目录。[root@master~]#cd/usr/local[root@masterlocal]#ll总用量279464-rw-r--r--.1roo

hive向上取整、向下取整、保留小数位的函数

hivesql向上取整、向下取整、保留小数位的函数1.向上取整函数ceiling()示例:selectceiling(10.1)结果:112.向下取整函数floor()示例:selectfloor(10.9)结果:103.四舍五入保留指定小数位round(a,b),a参数是需要处理的数据,b参数是需要保留的小数位示例:selectround(10.562,1)结果:10.6

Spark写入Hive报错Mkdir failed on :com.alibaba.jfs.JindoRequestPath

1.报错内容23/05/3114:32:13INFO[Driver]FsStats:cmd=mkdirs,src=oss://sync-to-bi.[马赛克].aliyuncs.com/tmp/hive,dst=null,size=0,parameter=FsPermission:rwx-wx-wx,time-in-ms=32,version=3.5.023/05/3114:32:13ERROR[Driver]ApplicationMaster:Userclassthrewexception:org.apache.spark.sql.AnalysisException:java.lang.Ru