草庐IT

基于华为MRS3.2.0实时Flink消费Kafka落盘至HDFS的Hive外部表的调度方案

文章目录1Kafka1.1Kerberos安全模式的认证与环境准备1.2创建一个测试主题1.3消费主题的接收测试2Flink1.1Kerberos安全模式的认证与环境准备1.2Flink任务的开发3HDFS与Hive3.1Shell脚本的编写思路3.2脚本测试方法4DolphinScheduler该需求为实时接收对手Topic,并进行消费落盘至Hive。在具体的实施中,基于华为MRS3.2.0安全模式带kerberos认证的Kafka2.4、Flink1.15、Hadoop3.3.1、Hive3.1,调度平台为开源dolphinscheduler。本需求的完成全部参考华为官方MRS3.2.0开

实战Flink Java api消费kafka实时数据落盘HDFS

文章目录1需求分析2实验过程2.1启动服务程序2.2启动kafka生产3JavaAPI开发3.1依赖3.2代码部分4实验验证STEP1STEP2STEP35时间窗口1需求分析在Javaapi中,使用flink本地模式,消费kafka主题,并直接将数据存入hdfs中。flink版本1.13kafka版本0.8hadoop版本3.1.42实验过程2.1启动服务程序为了完成Flink从Kafka消费数据并实时写入HDFS的需求,通常需要启动以下组件:[root@hadoop10~]#jps3073SecondaryNameNode2851DataNode2708NameNode12854Jps197

MongoDB 事务与数据落盘

文章目录概要一、持久性1.1、journallog刷盘机制1.2、数据刷盘机制1.3、复制集下的写安全机制二、隔离性总结概要MongoDB并不像MySQL一样天然支持多文档事务,其演变过程如下:MongoDB4.0之前只支持单文档事务,在单个文档上支持ACID原子性,并且不对外暴漏API,用户无法控制事务,完全是MongoDB自行控制;MongoDB4.0开始支持多文档事务以及复制集和分片集群下的事务,统称为分布式事务,并提供API允许用户像MySQL事务那样控制事务的开始与结束。但是MongoDB4.0的事务仍有限制:事务的默认最大运行时间是60s。1)通过在mongod实例级别上修改tra

IO部分落盘,文件数据损坏

转载自华为服务支持的IO部分落盘,文件数据损坏和避免文件系统损坏的关键参数。问题描述存储断链后,部分文件数据错误。原因分析更新一个文件,按照落盘顺序分为:数据、JBD2日志、元数据。需要说明的是,日志和元数据下发会等数据IO流程结束,但是并没有要求数据IO一定下发成功。IO闪断情况下,可能存在以下场景:数据下发失败,日志和元数据下发成功,从而表现出文件内容损坏的现象。解决办法mount磁盘时,指定data_err=abort,保证在数据IO下发失败时,不再进行后续日志和元数据更新。其它避免文件系统损坏的关键参数为避免文件系统损坏,有两个挂载参数需要特别关注:mount-o元数据异常后的处理策略

IO部分落盘,文件数据损坏

转载自华为服务支持的IO部分落盘,文件数据损坏和避免文件系统损坏的关键参数。问题描述存储断链后,部分文件数据错误。原因分析更新一个文件,按照落盘顺序分为:数据、JBD2日志、元数据。需要说明的是,日志和元数据下发会等数据IO流程结束,但是并没有要求数据IO一定下发成功。IO闪断情况下,可能存在以下场景:数据下发失败,日志和元数据下发成功,从而表现出文件内容损坏的现象。解决办法mount磁盘时,指定data_err=abort,保证在数据IO下发失败时,不再进行后续日志和元数据更新。其它避免文件系统损坏的关键参数为避免文件系统损坏,有两个挂载参数需要特别关注:mount-o元数据异常后的处理策略