SparkHadoopWriter

Sparkrdd.saveAsHadoopFile非常浪费，因为它会在每次写入时生成一个新的SparkHadoopWriter。我们有一个用例，其中备份Spark作业仅仅是因为这些Writer上的gc跟不上传入流。是否有人重新实现了此方法，其中SparkHadoopWriter根据写入目标是哪个存储桶进行重用。如果我朝那个方向前进，是否有任何架构原因导致努力失败？最佳答案 RDD.saveAsHadoopFile在执行器上执行，如果我们想重用SparkHadoopWriter的实例，那么我们可能需要每次执行序列化和反序列化作业由执