1、背景任何一个系统,为了保证其良好地运行下去,一定是需要持续的维护和治理,数仓也不例外。本文主要分享下今年严选数仓团队从规范、计存、质量、安全几块入手对现有数据资产进行的一些治理的思路和方案。网易严选是个自营品牌电商,这意味着严选的业务会覆盖C端的用户营销,商品到B端的供应链以及财务业务。业务和数据的整体复杂度会相对较高,各个不同业务域也呈现出不同的特点和问题。所以我们需要结合现有的资产特点去设计治理方法论和效果评估方法,然后围绕着治理方法论去建设我们的治理工具。治理开始前,先盘一下我们可用的资源,设计下整体的方向。从人力上来说,项目整体设计与推动大概可投入1.5人力,治理实施可以拉上资产对
本文介绍了网易邮箱数仓的演进过程和期间一些关键的技术方案引入决策,并阐述了这些决策背后的业务需求和技术考虑因素,以及实施后的实际产出成效。最后对整个过程进行了总结及后续展望。1、概述到目前为止,网易邮箱数仓的发展大致经历了三个阶段:第一个阶段是2020年10月份之前,这时候我们的数据系统的主要任务是支持邮箱日常的运营统计;第二个阶段大概是2020年11月份到2021年的11月份,这段期间公司尝试做业务的调整,挖掘新的长期增长方向。我们在这时候对邮箱数仓底层的OLAP引擎和整个数据处理链路都进行了重构,以适应业务方宽泛的即席数据探索需求;第三个阶段大概是2021年的12月份到现在,我们进入了精细
本文介绍了网易邮箱数仓的演进过程和期间一些关键的技术方案引入决策,并阐述了这些决策背后的业务需求和技术考虑因素,以及实施后的实际产出成效。最后对整个过程进行了总结及后续展望。1、概述到目前为止,网易邮箱数仓的发展大致经历了三个阶段:第一个阶段是2020年10月份之前,这时候我们的数据系统的主要任务是支持邮箱日常的运营统计;第二个阶段大概是2020年11月份到2021年的11月份,这段期间公司尝试做业务的调整,挖掘新的长期增长方向。我们在这时候对邮箱数仓底层的OLAP引擎和整个数据处理链路都进行了重构,以适应业务方宽泛的即席数据探索需求;第三个阶段大概是2021年的12月份到现在,我们进入了精细
1、背景得物供应链业务是纷繁复杂的,我们既有JIT的现货模式中间夹着这大量的仓库作业环节,又有到仓的寄售,品牌业务,有非常复杂的逆向链路。在这么复杂的业务背后,我们需要精细化关注人货场车的效率和成本,每一单的及时履约情况,要做到这一点我们需要各粒度和维度的数据来支撑我们的精细化管理。1.1业务早期业务早期,业务反馈我们后台管理系统某些报表查询慢。查询代码可知,如下图:这种现象一般表现为:大表JOIN,rdbms不擅长做数据聚合,查询响应慢,调优困难;多表关联,索引优化,子查询优化,加剧了复杂度,大量索引,读库磁盘空间膨胀过快;数据量大,多维分析困难,跨域取数,自助拉到实时数据困难等。一方面原因
1、背景得物供应链业务是纷繁复杂的,我们既有JIT的现货模式中间夹着这大量的仓库作业环节,又有到仓的寄售,品牌业务,有非常复杂的逆向链路。在这么复杂的业务背后,我们需要精细化关注人货场车的效率和成本,每一单的及时履约情况,要做到这一点我们需要各粒度和维度的数据来支撑我们的精细化管理。1.1业务早期业务早期,业务反馈我们后台管理系统某些报表查询慢。查询代码可知,如下图:这种现象一般表现为:大表JOIN,rdbms不擅长做数据聚合,查询响应慢,调优困难;多表关联,索引优化,子查询优化,加剧了复杂度,大量索引,读库磁盘空间膨胀过快;数据量大,多维分析困难,跨域取数,自助拉到实时数据困难等。一方面原因
前言Databend是一款完全面向云对象存储的新一代云原生数据仓库,专为弹性和高效设计,为您的大规模分析需求保驾护航。Databend同时是一款符合Apache-2.0协议的开源软件,除了访问云服务(https://app.databend.com/)之外,用户还可以自己部署Databend生产集群以满足工作负载需要。Databend的典型使用场景包括:实时分析平台,日志的快速查询与可视化。云数据仓库,历史订单数据的多维度分析和报表生成。混合云架构,统一管理和处理不同来源和格式的数据。成本和性能敏感的OLAP场景,动态调整存储和计算资源。KubeSphere是在Kubernetes之上构建的
前言Databend是一款完全面向云对象存储的新一代云原生数据仓库,专为弹性和高效设计,为您的大规模分析需求保驾护航。Databend同时是一款符合Apache-2.0协议的开源软件,除了访问云服务(https://app.databend.com/)之外,用户还可以自己部署Databend生产集群以满足工作负载需要。Databend的典型使用场景包括:实时分析平台,日志的快速查询与可视化。云数据仓库,历史订单数据的多维度分析和报表生成。混合云架构,统一管理和处理不同来源和格式的数据。成本和性能敏感的OLAP场景,动态调整存储和计算资源。KubeSphere是在Kubernetes之上构建的
拉链表是数据仓库中特别重要的一种方式,它可以保留数据历史变化的过程,这里分享一下拉链表具体的开发过程。维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录,通过拉链表可以很方便的还原出拉链时点的客户记录。这里用商品价格的变化作为例子,具体的开发过程要按实际的来,不能照搬代码,编程重要的是了解背后的思路和原理,而不是ctrl+c和ctrl+v。那对我们学习提升的帮助有限,虽然可能对完成工作的效率帮助很大。在开始介绍之前,这里的数据仓库的环境是HIVE。首先看看原始的数据:商品价格原始数据可以看到,原始的数据是每一个商品,一条记
拉链表是数据仓库中特别重要的一种方式,它可以保留数据历史变化的过程,这里分享一下拉链表具体的开发过程。维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录,通过拉链表可以很方便的还原出拉链时点的客户记录。这里用商品价格的变化作为例子,具体的开发过程要按实际的来,不能照搬代码,编程重要的是了解背后的思路和原理,而不是ctrl+c和ctrl+v。那对我们学习提升的帮助有限,虽然可能对完成工作的效率帮助很大。在开始介绍之前,这里的数据仓库的环境是HIVE。首先看看原始的数据:商品价格原始数据可以看到,原始的数据是每一个商品,一条记
前言:最近做需求的时候,涉及到了数仓相关的知识。简单介绍下数仓的一些基本概念。以及,了解下大数据开发的一些基本流程。一、什么是数仓?数据仓库,由数据仓库之父比尔·恩门(BillInmon)于1990年提出的。1991年,他写了一本书,叫《BuildingtheDataWarehouse》(建立数据仓库),书中提出的:数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、不可修改的(Non-Volatile)、与时间相关的(TimeVariant)的数据集合,专门用于支持管理决策(DecisionMakingSupport)。简