草庐IT

基于Lakehouse架构实现湖内建仓实践经验

一、背景与行业现状1、数据湖理解的几个误区现在很多企业都对数据湖存在一些误区,从上图左侧对数据湖的不同定义(红色字体标识)可以看出,数据湖并不像大家想象的那样。误区主要分为以下三种:第一种认为数据湖仅用来进行海量的存储;第二种认为数据湖是用来处理非结构数据的,不处理结构化数据;第三种认为数据湖仅可以用来做贴源层,不能建数仓。我们从数据湖所承载的大数据平台技术上看,它除了存储之外,还具备批量计算、实时计算、交互式分析、机器学习等多种能力。所以基于以上大家对数据湖的理解来使用数据湖是限制了它的数据处理加工能力和使用范围,同时也提高了建设成本。2、当前数据湖在数据处理的几种用法—数据湖能力并未充分利