草庐IT

sparksqlSpark

全部标签

Spark SQL 字段血缘在 vivo 互联网的实践

 作者:vivo互联网服务器团队-HaoGuangshi一、背景字段血缘是在表处理的过程中将字段的处理过程保留下来。为什么会需要字段血缘呢?有了字段间的血缘关系,便可以知道数据的来源去处,以及字段之间的转换关系,这样对数据的质量,治理有很大的帮助。SparkSQL相对于Hive来说通常情况下效率会比较高,对于运行时间、资源的使用上面等都会有较大的收益。平台计划将Hive任务迁移到SparkSQL上,同时也需要实现字段血缘的功能。二、前期调研开发前我们做了很多相关调研,从中得知Spark是支持扩展的:允许用户对SparkSQL的SQL解析、逻辑计划的分析和检查、逻辑计划的优化、物理计划的形成等进

Spark SQL 字段血缘在 vivo 互联网的实践

 作者:vivo互联网服务器团队-HaoGuangshi一、背景字段血缘是在表处理的过程中将字段的处理过程保留下来。为什么会需要字段血缘呢?有了字段间的血缘关系,便可以知道数据的来源去处,以及字段之间的转换关系,这样对数据的质量,治理有很大的帮助。SparkSQL相对于Hive来说通常情况下效率会比较高,对于运行时间、资源的使用上面等都会有较大的收益。平台计划将Hive任务迁移到SparkSQL上,同时也需要实现字段血缘的功能。二、前期调研开发前我们做了很多相关调研,从中得知Spark是支持扩展的:允许用户对SparkSQL的SQL解析、逻辑计划的分析和检查、逻辑计划的优化、物理计划的形成等进