sparks_草庐IT

python - 我可以在提交 spark 作业时向 python 代码添加参数吗？

我正在尝试使用spark-submit在spark集群中执行我的python代码。通常我们使用如下python代码运行spark-submit。#RunaPythonapplicationonacluster./bin/spark-submit\--masterspark://207.184.161.138:7077\my_python_code.py\1000但我想通过传递几个参数来运行my_python_code.py有没有聪明的方法来传递参数？最佳答案尽管sys.argv是一个很好的解决方案，但我仍然更喜欢这种在我的PyS

python - Spark RDD 到 DataFrame python

我正在尝试将SparkRDD转换为DataFrame。我已经看到将方案传递给的文档和示例sqlContext.CreateDataFrame(rdd,schema)函数。但我有38个列或字段，这将进一步增加。如果我手动给schema指定每个字段信息，那将是一件非常乏味的工作。有没有其他方法可以在不知道之前列信息的情况下指定架构。最佳答案看，在Spark中有两种方法可以将RDD转换为DF。toDF()和createDataFrame(rdd,schema)我将向您展示如何动态地做到这一点。toDF()toDF()命令提供了将RDD

python DataFrame code section schema apache-spark pyspark spark-dataframe

python - Spark RDD 到 DataFrame python

我正在尝试将SparkRDD转换为DataFrame。我已经看到将方案传递给的文档和示例sqlContext.CreateDataFrame(rdd,schema)函数。但我有38个列或字段，这将进一步增加。如果我手动给schema指定每个字段信息，那将是一件非常乏味的工作。有没有其他方法可以在不知道之前列信息的情况下指定架构。最佳答案看，在Spark中有两种方法可以将RDD转换为DF。toDF()和createDataFrame(rdd,schema)我将向您展示如何动态地做到这一点。toDF()toDF()命令提供了将RDD

python DataFrame code section schema apache-spark pyspark spark-dataframe

python - 如何在 Apache Spark 预构建版本中添加任何新库，如 spark-csv

我已经构建了Spark-csv并且能够使用以下命令从pysparkshell中使用相同的命令bin/spark-shell--packagescom.databricks:spark-csv_2.10:1.0.3获取错误>>>df_cat.save("k.csv","com.databricks.spark.csv")Traceback(mostrecentcalllast):File"",line1,inFile"/Users/abhishekchoudhary/bigdata/cdh5.2.0/spark-1.3.1/python/pyspark/sql/dataframe.py"

何在 spark-csv spark csv python apache-spark apache-spark-sql

python - 如何在 Apache Spark 预构建版本中添加任何新库，如 spark-csv

我已经构建了Spark-csv并且能够使用以下命令从pysparkshell中使用相同的命令bin/spark-shell--packagescom.databricks:spark-csv_2.10:1.0.3获取错误>>>df_cat.save("k.csv","com.databricks.spark.csv")Traceback(mostrecentcalllast):File"",line1,inFile"/Users/abhishekchoudhary/bigdata/cdh5.2.0/spark-1.3.1/python/pyspark/sql/dataframe.py"

何在 spark-csv spark csv python apache-spark apache-spark-sql

python - 如何在 ipython 中将 Spark RDD 转换为 pandas 数据帧？

我有一个RDD，我想把它转换成pandasdataframe。我知道要将RDD转换为普通的dataframe我们可以这样做df=rdd1.toDF()但我想将RDD转换为pandasdataframe而不是普通的dataframe。我该怎么做？最佳答案您可以使用函数toPandas():ReturnsthecontentsofthisDataFrameasPandaspandas.DataFrame.ThisisonlyavailableifPandasisinstalledandavailable.>>>df.toPandas

何在 ipython code section dataframe python pandas pyspark rdd

python - 如何在 ipython 中将 Spark RDD 转换为 pandas 数据帧？

我有一个RDD，我想把它转换成pandasdataframe。我知道要将RDD转换为普通的dataframe我们可以这样做df=rdd1.toDF()但我想将RDD转换为pandasdataframe而不是普通的dataframe。我该怎么做？最佳答案您可以使用函数toPandas():ReturnsthecontentsofthisDataFrameasPandaspandas.DataFrame.ThisisonlyavailableifPandasisinstalledandavailable.>>>df.toPandas

何在 ipython code section dataframe python pandas pyspark rdd

python - Spark使用前一行的值将新列添加到数据框

我想知道如何在Spark(Pyspark)中实现以下目标初始数据框:+--+---+|id|num|+--+---+|4|9.0|+--+---+|3|7.0|+--+---+|2|3.0|+--+---+|1|5.0|+--+---+结果数据框:+--+---+-------+|id|num|new_Col|+--+---+-------+|4|9.0|7.0|+--+---+-------+|3|7.0|3.0|+--+---+-------+|2|3.0|5.0|+--+---+-------+我设法通过使用以下方式将新列“附加”到数据框中:df.withColumn("new_

python Spark code section stackoverflow apache-spark dataframe pyspark apache-spark-sql

python - Spark使用前一行的值将新列添加到数据框

我想知道如何在Spark(Pyspark)中实现以下目标初始数据框:+--+---+|id|num|+--+---+|4|9.0|+--+---+|3|7.0|+--+---+|2|3.0|+--+---+|1|5.0|+--+---+结果数据框:+--+---+-------+|id|num|new_Col|+--+---+-------+|4|9.0|7.0|+--+---+-------+|3|7.0|3.0|+--+---+-------+|2|3.0|5.0|+--+---+-------+我设法通过使用以下方式将新列“附加”到数据框中:df.withColumn("new_

python Spark code section stackoverflow apache-spark dataframe pyspark apache-spark-sql

python - 如何从我的 Python Spark 脚本中登录

我有一个使用spark-submit运行的PythonSpark程序。我想把日志语句放进去。logging.info("Thisisaninformativemessage.")logging.debug("Thisisadebugmessage.")我想使用与Spark相同的记录器，以便日志消息以相同的格式输出，并且级别由相同的配置文件控制。我该怎么做？我尝试将logging语句放入代码中，并从logging.getLogger()开始。在这两种情况下，我都看到了Spark的日志消息，但没有看到我的。我一直在看Pythonloggingdocumentation，但无法从那里弄清楚。

python section code logging apache-spark