PipelinedRDD_草庐IT

将PipelinedRDD转换为DataFrame

我正在尝试将Pyspark中的PipelinedRDD转换为DataFrame。这是代码段：newRDD=rdd.map(lambdarow:Row(row.__fields__+["tag"])(row+(tagScripts(row),)))df=newRDD.toDF()但是，当我运行代码时，我会收到此错误：'list'objecthasnoattribute'encode'我尝试了多种其他组合，例如使用以下方式将其转换为熊猫数据框newRDD=rdd.map(lambdarow:Row(row.__fields__+["tag"])(row+(tagScripts(row),)))df

python - “PipelinedRDD”对象在 PySpark 中没有属性 'toDF'

我正在尝试加载SVM文件并将其转换为DataFrame，以便可以使用Spark的ML模块(PipelineML)。我刚刚在Ubuntu14.04上安装了新的Spark1.5.0(未配置spark-env.sh)。我的my_script.py是:frompyspark.mllib.utilimportMLUtilsfrompysparkimportSparkContextsc=SparkContext("local","TesteOriginal")data=MLUtils.loadLibSVMFile(sc,"/home/svm_capture").toDF()我正在使用:./spar

PipelinedRDD amp code section 34 python apache-spark pyspark apache-spark-sql rdd

python - “PipelinedRDD”对象在 PySpark 中没有属性 'toDF'

我正在尝试加载SVM文件并将其转换为DataFrame，以便可以使用Spark的ML模块(PipelineML)。我刚刚在Ubuntu14.04上安装了新的Spark1.5.0(未配置spark-env.sh)。我的my_script.py是:frompyspark.mllib.utilimportMLUtilsfrompysparkimportSparkContextsc=SparkContext("local","TesteOriginal")data=MLUtils.loadLibSVMFile(sc,"/home/svm_capture").toDF()我正在使用:./spar

PipelinedRDD amp code section 34 python apache-spark pyspark apache-spark-sql rdd