我在使用pyspark将文本文件保存到S3时遇到问题。我能够保存到S3,但它首先上传到S3上的_temporary,然后继续复制到预期位置。这会显着增加作业运行时间。我试图编译一个DirectFileOutputComitter,它应该直接写入预期的S3url,但我无法让Spark使用此类。示例:someRDD.saveAsTextFile("s3a://somebucket/savefolder")这创建了一个s3a://somebucket/savefolder/_temporary/随后写入的目录,之后S3复制操作将文件移回s3a://somebucket/savefolder我