草庐IT

企业数据治理实战总结--数仓面试必备

文章整理自涤生大数据老师宇哥,宇哥是历任中国电信,平安银行,微众银行,众安保险等多家公司擅长大数据求职面试,数仓开发管理,数据治理,数据质量等工作,主导过相关平台的建设1 数据治理的背景在数据建设过程中,业务人员和数据开发人员在日常使用数据的过程中还是能感受到一些痛点的,主要的表现:第一,数据资产缺乏盘点。当前核心系统的主要数据已经采集到数据仓库,但是在日常的业务分析中经常需要向业务系统了解需要用到的数据在哪里。总得来看对数据资产还是缺乏整体盘点,公司主要有哪些数据,都分布在哪些系统中,哪些数据已经采集到数仓,哪些还没有入库,还有待进一步梳理。第二,数据标准化建设不足。数据标准会贯穿数据管理的

面向行为分析的数据治理和应用

一、常见的数据分析场景常见的数据分析就是对业务数据或者行为数据进行分析和管理。业务数据主要是指用户行为发生之后,实际产生的结果,我们使用数仓建模来给业务提供指标,从而指导业务进行一些正向的操作或者修改之前的一些操作。行为数据主要是指用户使用产品上的各种行为,我们可以对面向行为分析的数据进行加工和分析,从用户的行为中推导出来到底是哪些环节没有做好,从而调整和优化这些环节。二、数仓建模方法在引入行为分析方法之前,先介绍一下数仓建模的方法。数仓建模方法主要流程如下:用户空间:以音乐播放为例,用户在APP上的操作会产生行为日志,比如广告请求、曝光、点击,APP打开、用户注册和播放、下载歌曲等操作日志。

汽车之家敏感数据治理实践

随着大数据时代的到来,信息安全问题备受关注,用户对于个人隐私保护的要求越来越高。汽车之家作为国内最大的汽车垂直门户网站之一,一直致力于用户敏感数据保护。本文介绍,汽车之家通过研发”加解密中间件-AutoProxy”,实现敏感数据透明加解密,完成大量的历史存量及新增敏感数据的脱敏治理,更安全的保护用户信息。1.敏感数据治理背景1.1数据安全及合规需求数据安全事故时有发生,国家近年出台了《网络安全法》,《个人信息保护法》,《GB/T35273个人信息安全规范》,《关于开展互联网行业市场秩序专项整治行动的通知》等多部数据安全法律、法规进行个人信息保护。图片1.2数据脱敏方法数据脱敏步骤数据脱敏:敏感

日均调度 10W+ 任务实例,DolphinScheduler 在蔚来汽车一站式数据治理开发平台的应用改造

大家好我是张金明,在蔚来汽车担任大数据平台研发工程师。这次和大家分享的是ApacheDolphinScheduler在蔚来汽车一站式数据治理开发平台的应用和改造,接下来我将从背景、应用现状和技术改造三个方面去分享一下。背景业务痛点在蔚来汽车构建一个统一的数据中台之前,我们面临这样一些业务痛点和困境:数据缺乏治理,数仓不规范、不完整没有统一的数据仓库,无全域的数据资产视图存在数据孤岛;工具散乱,用户权限不统一、学习成本高用户需要在多个工具之间切换,导致开发效率降低底层运维成本高;数据需求响应周期长,找数难、取数难无沉淀的数据资产与中台能力,重复处理原始数据;业务数据需求从提出到获取结果的周期长基

数据治理(十五):Ranger管理Hive安全

文章目录 Ranger管理Hive安全一、配置HiveServer21)在Hive服务端配置hive-site.xml2)在每台Hadoop节点配置core-site.xml,记得发送到所有节点3)重启HDFS,Hive,在Hive服务端启动Metastore和HiveServer2服务4)在客户端通过beeline连接Hive二、安装Ranger-hive-plugin1)远程发送编译好的“hive-plugin”到node1节点“/software”目录下,并解压2)配置“install.properties”文件3)执行“enable-hive-plugin.sh”脚本启动hive插件三

11万字数字政府智慧政务大数据建设平台(大数据底座、数据治理)

本资料来源公开网络,仅供个人学习,请勿商用,如有侵权请联系删除。部分资料内容:一.1.1 数据采集子系统数据采集需要实现对全区各委办单位的数据采集功能,包括离线采集、准实时采集和实时采集的采集方式,根据各委办局业务数据的情况进行采集技术的实现。Ø 数据采集:政府数据来源多样,包含视频类数据、物联感知类数据以及传统的政务公共数据,各数据来源的数据格式也不一致,在收集的过程中需对数据进行规范化处理,以便于管理使用。Ø 大数据存储:实现现有应用的大量结构化数据、半结构化数据,以及将全市统一规划的大量图片、视频资料等非结构化数据的存储需求,要求大数据基础平台采用分布式文件

11万字数字政府智慧政务大数据建设平台(大数据底座、数据治理)

本资料来源公开网络,仅供个人学习,请勿商用,如有侵权请联系删除。部分资料内容:一.1.1 数据采集子系统数据采集需要实现对全区各委办单位的数据采集功能,包括离线采集、准实时采集和实时采集的采集方式,根据各委办局业务数据的情况进行采集技术的实现。Ø 数据采集:政府数据来源多样,包含视频类数据、物联感知类数据以及传统的政务公共数据,各数据来源的数据格式也不一致,在收集的过程中需对数据进行规范化处理,以便于管理使用。Ø 大数据存储:实现现有应用的大量结构化数据、半结构化数据,以及将全市统一规划的大量图片、视频资料等非结构化数据的存储需求,要求大数据基础平台采用分布式文件

数据治理:元数据及元数据管理策略、方法和技术

数字化时代,企业需要知道它们有什么数据,数据在哪里、由谁负责,数据中的值意味着什么,数据的生命周期是什么,哪些数据安全性和隐私性需要保护,以及谁使用了数据,用于什么业务目的,数据的质量怎么样,等等。这些问题都需要通过元数据管理解决,缺乏有效的元数据管理,企业的数据资产可能会变成拖累企业利润的“包袱”。数据已经成为增强企业竞争力的核心要素,有效地管理和使用数据成为企业的刚需。越来越多的企业使用元数据管理工具来管理云计算、物联网、数据湖中所产生的数据,以便更容易地理解、更快地查找和更有效地管理企业数据,实现数据的价值。01 元数据管理概述没有元数据,数据其实就没有任何意义。元数据看起来只是一堆毫无

转转B2C一站式服务告警治理的背后

1为什么写这篇文章转转B2C技术部主要负责商详、商列等BFF层核心页面业务,单接口甚至需要开线程池并行调用二十多个依赖服务,因此依赖的服务以及执行线程池的稳定性也就成为了B2C关注的重点。那么站在技术视角看调用链路,会发现几个特点:CPU使用率高,线程池大量使用RPC调用多,稳定性指望依赖的服务方业务调用链路较长,无法精细化控制本文就针对如何快速定位常见问题,以及后续日志的进一步治理计划来进行讲解。2现状与问题目前转转各个排查问题的工具是统一开放给公司的所有业务使用的,因此每次告警,都需借助统一的平台如服务治理平台、Grafana、Log日志平台等工具进行排查,不完全贴合B2C常见问题排查场景

从阿里巴巴数据治理到瓴羊Dataphin

我们深知,企业需要一套完善的数据技术与工具,实现数据合规采集、存储、计算、建设和管理,利用数据思维对业务运营与管理场景问题精细洞察,学会利用数据资产改善能效,以此循环往复,推动数据资产的持续沉淀,形成企业特有的数据资产体系。 基于阿里巴巴内部的实践经验和成果,面向不同行业的实际业务场景Dataphin应运而生,作为阿里巴巴统一方法论的工具化沉淀,Dataphin希望能帮助企业探索更加复杂与多样的数据建设之路。 本次内容将以阿里巴巴数据治理的实践和统一数据治理方法论工具化沉淀的Dataphin为核心内容为大家详细介绍。一、数据建设的三个阶段:从在线开发到平台构建到数据综合治理从阿里自身的发展历程