草庐IT

Flink SQL通过Hudi HMS Catalog读写Hudi并同步Hive表(强烈推荐这种方式)

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站:https://www.captainai.net/dongkelun前言上篇文章FlinkSQL操作Hudi并同步Hive使用总结总结了如何使用FlinkSQL读写Hudi并同步Hive,介绍了创建表的各种方式,但是每一种方式都不太完美。本文介绍一种比较完美的方式,通过HudiHMSCatalog读写Hudi并同步Hive表,这里的HudiHMSCatalog实际上就是通过上篇文章最后提到的HoodieHiveCatalog实现的,PR:[HUDI-4098]SupportHMSforflink

Flink SQL通过Hudi HMS Catalog读写Hudi并同步Hive表(强烈推荐这种方式)

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站:https://www.captainai.net/dongkelun前言上篇文章FlinkSQL操作Hudi并同步Hive使用总结总结了如何使用FlinkSQL读写Hudi并同步Hive,介绍了创建表的各种方式,但是每一种方式都不太完美。本文介绍一种比较完美的方式,通过HudiHMSCatalog读写Hudi并同步Hive表,这里的HudiHMSCatalog实际上就是通过上篇文章最后提到的HoodieHiveCatalog实现的,PR:[HUDI-4098]SupportHMSforflink

No archetype found in remote catalog. Defaulting to internal catalog 原因 与 解决

Noarchetypefoundinremotecatalog.Defaultingtointernalcatalog翻译:在远程目录中找不到原型, 默认为内部目录产生原因我在使用IDEA创建meven时,报错这个,原因在于我在IDEA中,设置了本地环境安装的 Meven,因为使用IDEA默认的,下载后的jar,占用C盘位置,所以干脆直接下载一个Meven,并配置setting设置将仓库设置为阿里云私服下载(快),设置将下载的jar统一到其他盘符 这就导致了,问题的产生阿里云镜像中,没有 archetype-catalog-3.2.1.xml文件,所以创建后,直接报错其实这个错误,并不影响开发

No archetype found in remote catalog. Defaulting to internal catalog 原因 与 解决

Noarchetypefoundinremotecatalog.Defaultingtointernalcatalog翻译:在远程目录中找不到原型, 默认为内部目录产生原因我在使用IDEA创建meven时,报错这个,原因在于我在IDEA中,设置了本地环境安装的 Meven,因为使用IDEA默认的,下载后的jar,占用C盘位置,所以干脆直接下载一个Meven,并配置setting设置将仓库设置为阿里云私服下载(快),设置将下载的jar统一到其他盘符 这就导致了,问题的产生阿里云镜像中,没有 archetype-catalog-3.2.1.xml文件,所以创建后,直接报错其实这个错误,并不影响开发

DataLeap的Catalog系统近实时消息同步能力优化

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 摘要字节数据中台DataLeap的DataCatalog系统通过接收MQ中的近实时消息来同步部分元数据。ApacheAtlas对于实时消息的消费处理不满足性能要求,内部使用Flink任务的处理方案在ToB场景中也存在诸多限制,所以团队自研了轻量级异步消息处理框架,很好的支持了字节内部和火山引擎上同步元数据的诉求。本文定义了需求场景,并详细介绍框架的设计与实现。背景动机字节数据中台DataLeap的DataCatalog系统基于ApacheAtlas搭建,其中Atlas通过Kafka获取外部系统的元数据变更消息

DataLeap的Catalog系统近实时消息同步能力优化

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 摘要字节数据中台DataLeap的DataCatalog系统通过接收MQ中的近实时消息来同步部分元数据。ApacheAtlas对于实时消息的消费处理不满足性能要求,内部使用Flink任务的处理方案在ToB场景中也存在诸多限制,所以团队自研了轻量级异步消息处理框架,很好的支持了字节内部和火山引擎上同步元数据的诉求。本文定义了需求场景,并详细介绍框架的设计与实现。背景动机字节数据中台DataLeap的DataCatalog系统基于ApacheAtlas搭建,其中Atlas通过Kafka获取外部系统的元数据变更消息

以字节跳动内部 Data Catalog 架构升级为例聊业务系统的性能优化

背景字节跳动DataCatalog产品早期,是基于LinkedInWherehows进行二次改造,产品早期只支持Hive一种数据源。后续为了支持业务发展,做了很多修修补补的工作,系统的可维护性和扩展性变得不可忍受。比如为了支持数据血缘能力,引入了字节内部的图数据库veGraph,写入时,需要业务层处理MySQL、ElasticSearch和veGraph三种存储,模型也需要同时理解关系型和图两种。更多的背景可以参照之前的文章。新版本保留了原有版本全量的产品能力,将存储层替换成了ApacheAtlas。然而,当我们把存量数据导入到新系统时,许多接口的读写性能都有严重下降,服务器资源的使用也被拉伸

以字节跳动内部 Data Catalog 架构升级为例聊业务系统的性能优化

背景字节跳动DataCatalog产品早期,是基于LinkedInWherehows进行二次改造,产品早期只支持Hive一种数据源。后续为了支持业务发展,做了很多修修补补的工作,系统的可维护性和扩展性变得不可忍受。比如为了支持数据血缘能力,引入了字节内部的图数据库veGraph,写入时,需要业务层处理MySQL、ElasticSearch和veGraph三种存储,模型也需要同时理解关系型和图两种。更多的背景可以参照之前的文章。新版本保留了原有版本全量的产品能力,将存储层替换成了ApacheAtlas。然而,当我们把存量数据导入到新系统时,许多接口的读写性能都有严重下降,服务器资源的使用也被拉伸

【manim】之目录动画

概要最近,结合视频剪辑工具剪映制作短视频时,如果不是数学相关的内容,使用视频剪辑工具配置字幕,添加图片等等比manim更加方便。所以,用manim封装一个目录的动画,用来配合剪辑工具中的其他资源。代码封装基于manim封装一个目录显示的class。主要属性就是titles,也就是目录中的各个标题。classCatalogDisplayer:def__init__(self,sc:Scene,titles:list):self.sc=scself.titles=titlesdef_title(self):title=Text("目录",font_size=20,weight=BOLD).shif

【manim】之目录动画

概要最近,结合视频剪辑工具剪映制作短视频时,如果不是数学相关的内容,使用视频剪辑工具配置字幕,添加图片等等比manim更加方便。所以,用manim封装一个目录的动画,用来配合剪辑工具中的其他资源。代码封装基于manim封装一个目录显示的class。主要属性就是titles,也就是目录中的各个标题。classCatalogDisplayer:def__init__(self,sc:Scene,titles:list):self.sc=scself.titles=titlesdef_title(self):title=Text("目录",font_size=20,weight=BOLD).shif