本文从计算资源治理实践出发,带大家清楚认识计算资源治理到底该如何进行,并如何应用到其他项目中。01前言由于数据治理层面可以分多个层面且内容繁多(包括模型合规、数据质量、数据安全、计算/存储资源、数据价值等治理内容),因此需要单独拆分为6个模块单独去阐述其中内容。笔者作为数仓开发经常会收到大量集群资源满载、任务产出延时等消息/邮件,甚至下游数分及其他同学也会询问任务运行慢的情况,在这里很多数仓同学遇到这类问题第一想到的都是加资源解决,但事实真不一定是缺少资源,而是需要优化当前问题任务。所以本期从团队做计算资源治理视角出发,带大家清楚认识计算资源治理到底该如何进行。02问题出现在做计算治理之前(
最近几年,国内业界越来越常提及“研发效能”这个词,追其根源大部分是始于“DevOps”运动的活跃。知道DevOps发展历史的,基本都了解DevOps是受敏捷的影响,是敏捷原则在软件研发到运维运营层面的延伸。很多云厂商在推广自己DevOps平台服务的时候,也会提及对“研发效能”的大幅度影响,比如AWS对DevOps的描述:DevOpsisthecombinationofculturalphilosophies,practices,andtoolsthatincreasesanorganization’sabilitytodeliverapplicationsandservicesathighve
最近几年,国内业界越来越常提及“研发效能”这个词,追其根源大部分是始于“DevOps”运动的活跃。知道DevOps发展历史的,基本都了解DevOps是受敏捷的影响,是敏捷原则在软件研发到运维运营层面的延伸。很多云厂商在推广自己DevOps平台服务的时候,也会提及对“研发效能”的大幅度影响,比如AWS对DevOps的描述:DevOpsisthecombinationofculturalphilosophies,practices,andtoolsthatincreasesanorganization’sabilitytodeliverapplicationsandservicesathighve
字节的挑战与实践首先来看一个问题:“一家公司,数据体系要怎么搭建?”方案一:整体规划,系统架构驱动方案二:问题出发,业务价值驱动在字节跳动,我们选择的是方案二,即从业务遇到的问题出发,重视落地结果与业务过程,去解决实际的治理问题。基于这个理念,在数据治理过程中,字节跳动也面临以下三个挑战与机遇:业务特点:业务发展快、场景丰富、数据量大且形态各异。 业务的线上服务及创新,都对数据有较强的依赖,核心业务数据延迟,质量问题将直接影响业务表现及发展。组织特点:扁平化的组织模式,分布式的组织管理。 无行政手段或强组织约束,也无全局治理委员会,且数据从采集到应用全部的生产流程,没有全局规范,业务团队需要自
字节的挑战与实践首先来看一个问题:“一家公司,数据体系要怎么搭建?”方案一:整体规划,系统架构驱动方案二:问题出发,业务价值驱动在字节跳动,我们选择的是方案二,即从业务遇到的问题出发,重视落地结果与业务过程,去解决实际的治理问题。基于这个理念,在数据治理过程中,字节跳动也面临以下三个挑战与机遇:业务特点:业务发展快、场景丰富、数据量大且形态各异。 业务的线上服务及创新,都对数据有较强的依赖,核心业务数据延迟,质量问题将直接影响业务表现及发展。组织特点:扁平化的组织模式,分布式的组织管理。 无行政手段或强组织约束,也无全局治理委员会,且数据从采集到应用全部的生产流程,没有全局规范,业务团队需要自
本文主要分享Datacake在大数据治理中,AI算法的应用经验。本次分享分为五大部分:第一部分阐明大数据与AI的关系,大数据不仅可以服务于AI,也可以使用AI来优化自身服务,两者是互相支撑、依赖的关系;第二部分介绍利用AI模型综合评估大数据任务健康度的应用实践,为后续开展数据治理提供量化依据;第三部分介绍利用AI模型智能推荐Spark任务运行参数配置的应用实践,实现了提高云资源利用率的目标;第四部分介绍在SQL查询场景中,由模型智能推荐任务执行引擎的实践;第五部分展望了在大数据整个生命周期中,AI的应用场景。一、大数据与 AI普遍观念认为,云计算收集存储海量数据,从而形成大数据;再经过对大数据
本文主要分享Datacake在大数据治理中,AI算法的应用经验。本次分享分为五大部分:第一部分阐明大数据与AI的关系,大数据不仅可以服务于AI,也可以使用AI来优化自身服务,两者是互相支撑、依赖的关系;第二部分介绍利用AI模型综合评估大数据任务健康度的应用实践,为后续开展数据治理提供量化依据;第三部分介绍利用AI模型智能推荐Spark任务运行参数配置的应用实践,实现了提高云资源利用率的目标;第四部分介绍在SQL查询场景中,由模型智能推荐任务执行引擎的实践;第五部分展望了在大数据整个生命周期中,AI的应用场景。一、大数据与 AI普遍观念认为,云计算收集存储海量数据,从而形成大数据;再经过对大数据
只有构筑一套企业级的数据综合治理体系,才能确保关键数据资产有清晰的业务管理责任,IT建设有稳定的原则和依据,作业人员有规范的流程和指导;当面临争议时,有裁决机构和升级处理机制;治理过程所需的人才、组织、预算有充足的保障。综合上述因素,最终建立有效的数据治理环境,数据的质量和安全得到保障,数据的价值才能真正发挥出来。华为数据管理总纲明确了数据治理最基本的原则,包括信息架构、数据产生、数据应用及数据质量的职责和分工等,确保数据治理环境的有效构建。(1)信息架构管理原则第一条:建立企业级信息架构,统一数据语言。第二条:所有变革项目须遵从数据管控要求。第三条:应用系统设计和开发应遵从企业级信息架构。关
只有构筑一套企业级的数据综合治理体系,才能确保关键数据资产有清晰的业务管理责任,IT建设有稳定的原则和依据,作业人员有规范的流程和指导;当面临争议时,有裁决机构和升级处理机制;治理过程所需的人才、组织、预算有充足的保障。综合上述因素,最终建立有效的数据治理环境,数据的质量和安全得到保障,数据的价值才能真正发挥出来。华为数据管理总纲明确了数据治理最基本的原则,包括信息架构、数据产生、数据应用及数据质量的职责和分工等,确保数据治理环境的有效构建。(1)信息架构管理原则第一条:建立企业级信息架构,统一数据语言。第二条:所有变革项目须遵从数据管控要求。第三条:应用系统设计和开发应遵从企业级信息架构。关
一,前言主数据和参考数据在我们数据开发或者JavaWeb开发的同学都有经常接触,并且是大量的使用和分析场景,在数据治理中提到的一些专业名词在数据仓库中或者业务的RDBMS库中都有对应的关系映射。映射关系:图片.png业务系统中交易的订单状态,支付中的支付状态在数据治理中都可以理解为参考数据。这类数据的特性在于他要比主数据小,具体体现是参考数据的“列和行”都要比主数据小,当然这种说法也不是绝对的,有一种情况参考数据的列就要比主数据的列多,就是交叉参考数据。二,示例2.1简单参考数据简单的参考数据对数据用户来讲还不是很友好,原因是太过于简单,字面意思不能够完全说明这个参考数据应用场景图片.png2