治理_草庐IT

数据治理实践 | 网易某业务线的计算资源治理

本文从计算资源治理实践出发，带大家清楚认识计算资源治理到底该如何进行，并如何应用到其他项目中。01前言由于数据治理层面可以分多个层面且内容繁多（包括模型合规、数据质量、数据安全、计算/存储资源、数据价值等治理内容），因此需要单独拆分为6个模块单独去阐述其中内容。笔者作为数仓开发经常会收到大量集群资源满载、任务产出延时等消息/邮件，甚至下游数分及其他同学也会询问任务运行慢的情况，在这里很多数仓同学遇到这类问题第一想到的都是加资源解决，但事实真不一定是缺少资源，而是需要优化当前问题任务。所以本期从团队做计算资源治理视角出发，带大家清楚认识计算资源治理到底该如何进行。02问题出现在做计算治理之前（

治理数据 data-id span 大数据数据分析 $资源治理数据治理业务线

聊聊研发效能治理方案的理论框架（上篇）

最近几年，国内业界越来越常提及“研发效能”这个词，追其根源大部分是始于“DevOps”运动的活跃。知道DevOps发展历史的，基本都了解DevOps是受敏捷的影响，是敏捷原则在软件研发到运维运营层面的延伸。很多云厂商在推广自己DevOps平台服务的时候，也会提及对“研发效能”的大幅度影响，比如AWS对DevOps的描述：DevOpsisthecombinationofculturalphilosophies,practices,andtoolsthatincreasesanorganization’sabilitytodeliverapplicationsandservicesathighve

效能治理 section code

聊聊研发效能治理方案的理论框架（上篇）

最近几年，国内业界越来越常提及“研发效能”这个词，追其根源大部分是始于“DevOps”运动的活跃。知道DevOps发展历史的，基本都了解DevOps是受敏捷的影响，是敏捷原则在软件研发到运维运营层面的延伸。很多云厂商在推广自己DevOps平台服务的时候，也会提及对“研发效能”的大幅度影响，比如AWS对DevOps的描述：DevOpsisthecombinationofculturalphilosophies,practices,andtoolsthatincreasesanorganization’sabilitytodeliverapplicationsandservicesathighve

效能治理 section code

火山引擎 DataLeap：揭秘字节跳动业务背后的分布式数据治理思路

字节的挑战与实践首先来看一个问题：“一家公司，数据体系要怎么搭建？”方案一：整体规划，系统架构驱动方案二：问题出发，业务价值驱动在字节跳动，我们选择的是方案二，即从业务遇到的问题出发，重视落地结果与业务过程，去解决实际的治理问题。基于这个理念，在数据治理过程中，字节跳动也面临以下三个挑战与机遇：业务特点：业务发展快、场景丰富、数据量大且形态各异。业务的线上服务及创新，都对数据有较强的依赖，核心业务数据延迟，质量问题将直接影响业务表现及发展。组织特点：扁平化的组织模式，分布式的组织管理。无行政手段或强组织约束，也无全局治理委员会，且数据从采集到应用全部的生产流程，没有全局规范，业务团队需要自

治理 DataLeap style data-id 大数据 $数据治理

火山引擎 DataLeap：揭秘字节跳动业务背后的分布式数据治理思路

字节的挑战与实践首先来看一个问题：“一家公司，数据体系要怎么搭建？”方案一：整体规划，系统架构驱动方案二：问题出发，业务价值驱动在字节跳动，我们选择的是方案二，即从业务遇到的问题出发，重视落地结果与业务过程，去解决实际的治理问题。基于这个理念，在数据治理过程中，字节跳动也面临以下三个挑战与机遇：业务特点：业务发展快、场景丰富、数据量大且形态各异。业务的线上服务及创新，都对数据有较强的依赖，核心业务数据延迟，质量问题将直接影响业务表现及发展。组织特点：扁平化的组织模式，分布式的组织管理。无行政手段或强组织约束，也无全局治理委员会，且数据从采集到应用全部的生产流程，没有全局规范，业务团队需要自

治理 DataLeap style data-id 大数据 $数据治理

AI 算法在大数据治理中的应用

本文主要分享Datacake在大数据治理中，AI算法的应用经验。本次分享分为五大部分：第一部分阐明大数据与AI的关系，大数据不仅可以服务于AI，也可以使用AI来优化自身服务，两者是互相支撑、依赖的关系；第二部分介绍利用AI模型综合评估大数据任务健康度的应用实践，为后续开展数据治理提供量化依据；第三部分介绍利用AI模型智能推荐Spark任务运行参数配置的应用实践，实现了提高云资源利用率的目标；第四部分介绍在SQL查询场景中，由模型智能推荐任务执行引擎的实践；第五部分展望了在大数据整个生命周期中，AI的应用场景。一、大数据与 AI普遍观念认为，云计算收集存储海量数据，从而形成大数据；再经过对大数据

大数治理 span style color 人工智能大数据 $AI

AI 算法在大数据治理中的应用

本文主要分享Datacake在大数据治理中，AI算法的应用经验。本次分享分为五大部分：第一部分阐明大数据与AI的关系，大数据不仅可以服务于AI，也可以使用AI来优化自身服务，两者是互相支撑、依赖的关系；第二部分介绍利用AI模型综合评估大数据任务健康度的应用实践，为后续开展数据治理提供量化依据；第三部分介绍利用AI模型智能推荐Spark任务运行参数配置的应用实践，实现了提高云资源利用率的目标；第四部分介绍在SQL查询场景中，由模型智能推荐任务执行引擎的实践；第五部分展望了在大数据整个生命周期中，AI的应用场景。一、大数据与 AI普遍观念认为，云计算收集存储海量数据，从而形成大数据；再经过对大数据

大数治理 span style color 人工智能大数据 $AI

华为数据之道｜02 建立企业级数据综合治理体系｜①建立公司级的数据治理政策

只有构筑一套企业级的数据综合治理体系，才能确保关键数据资产有清晰的业务管理责任，IT建设有稳定的原则和依据，作业人员有规范的流程和指导；当面临争议时，有裁决机构和升级处理机制；治理过程所需的人才、组织、预算有充足的保障。综合上述因素，最终建立有效的数据治理环境，数据的质量和安全得到保障，数据的价值才能真正发挥出来。华为数据管理总纲明确了数据治理最基本的原则，包括信息架构、数据产生、数据应用及数据质量的职责和分工等，确保数据治理环境的有效构建。（1）信息架构管理原则第一条：建立企业级信息架构，统一数据语言。第二条：所有变革项目须遵从数据管控要求。第三条：应用系统设计和开发应遵从企业级信息架构。关

公司级治理数据关键 br

华为数据之道｜02 建立企业级数据综合治理体系｜①建立公司级的数据治理政策

只有构筑一套企业级的数据综合治理体系，才能确保关键数据资产有清晰的业务管理责任，IT建设有稳定的原则和依据，作业人员有规范的流程和指导；当面临争议时，有裁决机构和升级处理机制；治理过程所需的人才、组织、预算有充足的保障。综合上述因素，最终建立有效的数据治理环境，数据的质量和安全得到保障，数据的价值才能真正发挥出来。华为数据管理总纲明确了数据治理最基本的原则，包括信息架构、数据产生、数据应用及数据质量的职责和分工等，确保数据治理环境的有效构建。（1）信息架构管理原则第一条：建立企业级信息架构，统一数据语言。第二条：所有变革项目须遵从数据管控要求。第三条：应用系统设计和开发应遵从企业级信息架构。关

公司级治理数据关键 br

土味儿说明数据治理-主数据&参考数据（参考数据）

一，前言主数据和参考数据在我们数据开发或者JavaWeb开发的同学都有经常接触，并且是大量的使用和分析场景，在数据治理中提到的一些专业名词在数据仓库中或者业务的RDBMS库中都有对应的关系映射。映射关系：图片.png业务系统中交易的订单状态，支付中的支付状态在数据治理中都可以理解为参考数据。这类数据的特性在于他要比主数据小，具体体现是参考数据的“列和行”都要比主数据小，当然这种说法也不是绝对的，有一种情况参考数据的列就要比主数据的列多，就是交叉参考数据。二，示例2.1简单参考数据简单的参考数据对数据用户来讲还不是很友好，原因是太过于简单，字面意思不能够完全说明这个参考数据应用场景图片.png2

土味治理 section images upload