Celeborn_草庐IT

Spark+Celeborn：更快，更稳，更弹性

摘要：本文整理自阿里云EMRSpark团队的周克勇（一锤），在Spark&DSMeetup的分享。本篇内容主要分为三个部分：传统Shuffle的问题ApacheCeleborn（Incubating）简介Celeborn在性能、稳定性、弹性上的设计一、传统Shuffle的问题ApacheSpark是广为流行的大数据处理引擎，它有很多使用场景:SparkSQL、批处理、流处理、MLLIB、GraphX等。在所有组件下是统一的RDD抽象，RDD血缘通过两种依赖关系描述，窄依赖和宽依赖。其中宽依赖是支撑复杂算子（Join,Agg等）的关键，而宽依赖实现机制就是Shuffle。传统的Shuffle实现

Gluten + Celeborn: 让 Native Spark 拥抱 Cloud Native

作者：张凯@阿里云、陳韋廷@Intel、周渊@Intel简介ApacheCeleborn(Incubating)是阿里云捐赠给Apache的通用RemoteShuffleService，旨在提升大数据计算引擎的性能/稳定性/弹性，目前已广泛应用于生产场景。Gluten是Intel开源的引擎加速项目，旨在通过把SparkJavaEngine替换为NativeEngine(Velox,ClickHouse,Arrow等)来加速Spark引擎。过去一段时间，Gluten社区和Celeborn社区相互合作，成功把Celeborn集成进Gluten，本文将对此加以介绍。Gluten:给Spark换上Na