草庐IT

Celeborn

全部标签

Spark+Celeborn:更快,更稳,更弹性

摘要:本文整理自阿里云EMRSpark团队的周克勇(一锤),在Spark&DSMeetup的分享。本篇内容主要分为三个部分:传统Shuffle的问题ApacheCeleborn(Incubating)简介Celeborn在性能、稳定性、弹性上的设计一、传统Shuffle的问题ApacheSpark是广为流行的大数据处理引擎,它有很多使用场景:SparkSQL、批处理、流处理、MLLIB、GraphX等。在所有组件下是统一的RDD抽象,RDD血缘通过两种依赖关系描述,窄依赖和宽依赖。其中宽依赖是支撑复杂算子(Join,Agg等)的关键,而宽依赖实现机制就是Shuffle。传统的Shuffle实现

Gluten + Celeborn: 让 Native Spark 拥抱 Cloud Native

作者:张凯@阿里云、陳韋廷@Intel、周渊@Intel简介ApacheCeleborn(Incubating)是阿里云捐赠给Apache的通用RemoteShuffleService,旨在提升大数据计算引擎的性能/稳定性/弹性,目前已广泛应用于生产场景。Gluten是Intel开源的引擎加速项目,旨在通过把SparkJavaEngine替换为NativeEngine(Velox,ClickHouse,Arrow等)来加速Spark引擎。过去一段时间,Gluten社区和Celeborn社区相互合作,成功把Celeborn集成进Gluten,本文将对此加以介绍。Gluten:给Spark换上Na