草庐IT

SparkHadoopWriter

全部标签

hadoop - 在 rdd.saveAsHadoopFile 中重用 SparkHadoopWriter

Sparkrdd.saveAsHadoopFile非常浪费,因为它会在每次写入时生成一个新的SparkHadoopWriter。我们有一个用例,其中备份Spark作业仅仅是因为这些Writer上的gc跟不上传入流。是否有人重新实现了此方法,其中SparkHadoopWriter根据写入目标是哪个存储桶进行重用。如果我朝那个方向前进,是否有任何架构原因导致努力失败? 最佳答案 RDD.saveAsHadoopFile在执行器上执行,如果我们想重用SparkHadoopWriter的实例,那么我们可能需要每次执行序列化和反序列化作业由执