草庐IT

3NativeFileSystem

全部标签

hadoop - S3NativeFileSystem 调用是否会在 AWS EMR 4.6.0 上杀死我的 Pyspark 应用程序

当我的Spark应用程序必须从S3访问大量CSV文件(每个~1000@63MB)并将它们通过管道传输到SparkRDD时,它失败了。拆分CSV的实际过程似乎可行,但对S3NativeFileSystem的额外函数调用似乎导致错误和作业崩溃。首先,以下是我的PySpark应用程序:frompysparkimportSparkContextsc=SparkContext("local","SimpleApp")frompyspark.sqlimportSQLContextsqlContext=SQLContext(sc)importtimestartTime=float(time.time