很明显,有据可查的是,拆分zip文件的能力对Hadoop中作业的性能和并行化有很大影响。但是Azure是建立在Hadoop之上的,而且我在Microsoft文档中找不到的任何地方都没有提到这种影响。这不是ADL的问题吗?例如,GZip大文件现在是一种可接受的方法,还是我会遇到同样的问题,即由于压缩编解码器的选择而无法并行处理我的作业?谢谢 最佳答案 请注意,AzureDataLakeAnalytics不基于Hadoop。RojoSam是正确的,GZip是一种不好的并行化压缩格式。U-SQL会自动识别.gz文件并解压缩它们。但是,压缩