我正在尝试将Pyspark中的PipelinedRDD转换为DataFrame。这是代码段:newRDD=rdd.map(lambdarow:Row(row.__fields__+["tag"])(row+(tagScripts(row),)))df=newRDD.toDF()但是,当我运行代码时,我会收到此错误:'list'objecthasnoattribute'encode'我尝试了多种其他组合,例如使用以下方式将其转换为熊猫数据框newRDD=rdd.map(lambdarow:Row(row.__fields__+["tag"])(row+(tagScripts(row),)))df
我正在尝试加载SVM文件并将其转换为DataFrame,以便可以使用Spark的ML模块(PipelineML)。我刚刚在Ubuntu14.04上安装了新的Spark1.5.0(未配置spark-env.sh)。我的my_script.py是:frompyspark.mllib.utilimportMLUtilsfrompysparkimportSparkContextsc=SparkContext("local","TesteOriginal")data=MLUtils.loadLibSVMFile(sc,"/home/svm_capture").toDF()我正在使用:./spar
我正在尝试加载SVM文件并将其转换为DataFrame,以便可以使用Spark的ML模块(PipelineML)。我刚刚在Ubuntu14.04上安装了新的Spark1.5.0(未配置spark-env.sh)。我的my_script.py是:frompyspark.mllib.utilimportMLUtilsfrompysparkimportSparkContextsc=SparkContext("local","TesteOriginal")data=MLUtils.loadLibSVMFile(sc,"/home/svm_capture").toDF()我正在使用:./spar