草庐IT

腾讯 PCG 数据治理体系

一、数据治理的概况和解法腾讯PCG内容与平台事业群,包括大家所熟知的QQ、腾讯视频、腾讯新闻、阅文集团,以及腾讯音乐等业务。在没有治理平台之前,数据治理是运动式的,有两个比较大的难点:数据量大且复杂。每天大概有万亿级别的数据增量,而且数据的格式多样化,覆盖文本、图文、长短视频与语音等各种结构化、非结构化数据。数据技术架构复杂。腾讯内部有多个业务,每个业务又有很多产品线,每个产品线用的技术架构又不尽相同。调度系统有用 Venus 的,也有用 US 的;数据治理脚本开发有用 pySQL 或 pySpark 的,也有用 Hive 的,还有用内部 SQL 脚本的。数据治理的困境,可以从面向的不同用户的