草庐IT

elasticserch

全部标签

datax 同步mongodb数据库到hive(hdfs)和elasticserch(es)

一、同步环境1.mongodb版本:3.6.3。(有点老了,后来发现flinkcdc都只能监控一张表,多张表无法监控)2.datax版本:自己编译的DataX-datax_v2022103.hdfs版本:3.1.34.hive版本:3.1.2二、同步思路1.增量数据:需要每隔1小时将mongodb中17个集合的数据同步至hive,因为有数据生成时间,才用datax查询方式,将上一个小时的数据依次循环调用datax同步至hdfs,利用shell脚本和调度器定时装载至hive中形成ods层,并和其他表关联处理形成dwd层,提供给需求方。2.全量数据:历史数据才用datax编写脚本循环读取+调度+h