最近我们从“HDFS上的EMR”迁移到“S3上的EMR”(启用了一致View的EMRFS),我们意识到与HDFS相比,Spark“SaveAsTable”(Parquet格式)写入S3的速度慢了约4倍但我们找到了使用DirectParquetOutputCommitter-[1]w/Spark1.6的解决方法。S3缓慢的原因-我们不得不支付所谓的Parquet税-[2]默认输出提交器写入临时表并稍后重命名它,而S3中的重命名操作非常昂贵此外,我们确实了解使用“DirectParquetOutputCommitter”的风险,即在启用推测任务的情况下可能会发生数据损坏。现在有了Spark