SparkParquetLoader:Reducenumberofjobsinvolvedinlistingadataframe'sfiles我正在通过将parquet数据加载到数据框中1spark.read.parquet('hdfs:///path/goes/here/...')由于parquet分区,该路径中有大约50k个文件。当我运行该命令时,spark会生成数十个小作业,这些小作业总体上需要几分钟才能完成。以下是sparkUI中作业的外观:如您所见,虽然每个作业有大约2100个任务,但它们执行速度很快,大约2秒。启动这么多"迷你作业"效率低下,并导致此文件列出步骤大约需要10分钟(其