PySpark3_草庐IT

python - 如何安装 pyspark 以在独立脚本中使用？

我正在尝试将Spark与Python一起使用。我从downloads安装了Spark1.0.2forHadoop2二进制发行版页。我可以在Python交互模式下运行快速入门示例，但现在我想编写一个使用Spark的独立Python脚本。quickstartdocumentation说只导入pyspark，但这不起作用，因为它不在我的PYTHONPATH上。我可以运行bin/pyspark并看到该模块安装在SPARK_DIR/python/pyspark下。我可以手动将它添加到我的PYTHONPATH环境变量中，但我想知道首选的自动化方法。为独立脚本添加pyspark支持的最佳方式是什么？

python - “PipelinedRDD”对象在 PySpark 中没有属性 'toDF'

我正在尝试加载SVM文件并将其转换为DataFrame，以便可以使用Spark的ML模块(PipelineML)。我刚刚在Ubuntu14.04上安装了新的Spark1.5.0(未配置spark-env.sh)。我的my_script.py是:frompyspark.mllib.utilimportMLUtilsfrompysparkimportSparkContextsc=SparkContext("local","TesteOriginal")data=MLUtils.loadLibSVMFile(sc,"/home/svm_capture").toDF()我正在使用:./spar

PipelinedRDD amp code section 34 python apache-spark pyspark apache-spark-sql rdd

python - “PipelinedRDD”对象在 PySpark 中没有属性 'toDF'

我正在尝试加载SVM文件并将其转换为DataFrame，以便可以使用Spark的ML模块(PipelineML)。我刚刚在Ubuntu14.04上安装了新的Spark1.5.0(未配置spark-env.sh)。我的my_script.py是:frompyspark.mllib.utilimportMLUtilsfrompysparkimportSparkContextsc=SparkContext("local","TesteOriginal")data=MLUtils.loadLibSVMFile(sc,"/home/svm_capture").toDF()我正在使用:./spar

PipelinedRDD amp code section 34 python apache-spark pyspark apache-spark-sql rdd

python - 如何将 PySpark 中的表数据框导出到 csv？

我使用的是Spark1.3.1(PySpark)，并且我使用SQL查询生成了一个表。我现在有一个对象是DataFrame。我想将这个DataFrame对象(我称之为“表”)导出到一个csv文件，以便我可以操作它并绘制列。如何将DataFrame“表”导出到csv文件？谢谢! 最佳答案如果数据帧适合驱动程序内存并且您想保存到本地文件系统，您可以转换SparkDataFrame本地PandasDataFrame使用toPandas方法，然后简单地使用to_csv:df.toPandas().to_csv('mycsv.csv')否则你

PySpark python code csv section apache-spark dataframe apache-spark-sql export-to-csv

python - 如何将 PySpark 中的表数据框导出到 csv？

我使用的是Spark1.3.1(PySpark)，并且我使用SQL查询生成了一个表。我现在有一个对象是DataFrame。我想将这个DataFrame对象(我称之为“表”)导出到一个csv文件，以便我可以操作它并绘制列。如何将DataFrame“表”导出到csv文件？谢谢! 最佳答案如果数据帧适合驱动程序内存并且您想保存到本地文件系统，您可以转换SparkDataFrame本地PandasDataFrame使用toPandas方法，然后简单地使用to_csv:df.toPandas().to_csv('mycsv.csv')否则你

PySpark python code csv section apache-spark dataframe apache-spark-sql export-to-csv

python - 使用 None 值过滤 Pyspark 数据框列

我正在尝试过滤具有None作为行值的PySpark数据帧:df.select('dt_mvmt').distinct().collect()[Row(dt_mvmt=u'2016-03-27'),Row(dt_mvmt=u'2016-03-28'),Row(dt_mvmt=u'2016-03-29'),Row(dt_mvmt=None),Row(dt_mvmt=u'2016-03-30'),Row(dt_mvmt=u'2016-03-31')]我可以用字符串值正确过滤:df[df.dt_mvmt=='2016-03-31']#someresultshere但这失败了:df[df.dt_

Pyspark python code dt_mvmt NULL apache-spark dataframe apache-spark-sql

python - 使用 None 值过滤 Pyspark 数据框列

我正在尝试过滤具有None作为行值的PySpark数据帧:df.select('dt_mvmt').distinct().collect()[Row(dt_mvmt=u'2016-03-27'),Row(dt_mvmt=u'2016-03-28'),Row(dt_mvmt=u'2016-03-29'),Row(dt_mvmt=None),Row(dt_mvmt=u'2016-03-30'),Row(dt_mvmt=u'2016-03-31')]我可以用字符串值正确过滤:df[df.dt_mvmt=='2016-03-31']#someresultshere但这失败了:df[df.dt_

Pyspark python code dt_mvmt NULL apache-spark dataframe apache-spark-sql

python - Apache 星火 : How to use pyspark with Python 3

我从GH开发大师那里构建了Spark1.4，并且构建顺利。但是当我执行bin/pyspark时，我得到了Python2.7.9版本。我该如何更改？最佳答案只需设置环境变量:导出PYSPARK_PYTHON=python3如果您希望这是永久更改，请将此行添加到pyspark脚本中。关于python-Apache星火:HowtousepysparkwithPython3，我们在StackOverflow上找到一个类似的问题： https://stackove

pyspark python section code python-3.x apache-spark

python - Apache 星火 : How to use pyspark with Python 3

我从GH开发大师那里构建了Spark1.4，并且构建顺利。但是当我执行bin/pyspark时，我得到了Python2.7.9版本。我该如何更改？最佳答案只需设置环境变量:导出PYSPARK_PYTHON=python3如果您希望这是永久更改，请将此行添加到pyspark脚本中。关于python-Apache星火:HowtousepysparkwithPython3，我们在StackOverflow上找到一个类似的问题： https://stackove

pyspark python section code python-3.x apache-spark

python - 使用 PySpark 加载 CSV 文件

我是Spark的新手，我正在尝试使用Spark从文件中读取CSV数据。这就是我正在做的事情:sc.textFile('file.csv').map(lambdaline:(line.split(',')[0],line.split(',')[1])).collect()我希望这个调用能给我一个文件前两列的列表，但我收到了这个错误:File"",line1,inIndexError:listindexoutofrange虽然我的CSV文件不止一列。最佳答案 Spark2.0.0+可以直接使用内置的csv数据源:spark.read.

PySpark python 34 code section csv apache-spark apache-spark-sql