草庐IT

apache griffin 本地部署及源码分析

Griffin功能作用:是一个开源的大数据数据质量解决方案,它支持批处理和流模式两种数据质量检测方式,可以从不同维度(比如离线任务执行完毕后检查源端和目标端的数据数量是否一致、源表的数据空值数量等)度量数据资产,从而提升数据的准确度、可信度。通俗来讲就是监控数据质量:我们可以通过UI界面来初步了解其功能:核心概念:measure创建测测量指标一个数据源和测量的基准创建Measures时候分以下四个数据质量模型:1.Accuracy精确度,指对比两个数据集source/target,指定对比规则如大于,小于,等于,指定对比的区间。最后通过job调起的spark计算得到结果集。2.DataProf