草庐IT

DirectFileOutputCommitter

全部标签

hadoop - 星火 2.2.0 FileOutputCommitter

DirectFileOutputCommitter在Spark2.2.0中不再可用。这意味着写入S3需要非常长的时间(3小时对2分钟)。我可以通过在spark-shell中将FileOutputCommitter版本设置为2来解决这个问题,spark-shell--confspark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2同样不适用于spark-sqlspark-sql--confspark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2上面的命令

java - Spark 1.6 DirectFileOutputCommitter

我在使用pyspark将文本文件保存到S3时遇到问题。我能够保存到S3,但它首先上传到S3上的_temporary,然后继续复制到预期位置。这会显着增加作业运行时间。我试图编译一个DirectFileOutputComitter,它应该直接写入预期的S3url,但我无法让Spark使用此类。示例:someRDD.saveAsTextFile("s3a://somebucket/savefolder")这创建了一个s3a://somebucket/savefolder/_temporary/随后写入的目录,之后S3复制操作将文件移回s3a://somebucket/savefolder我