PySpark_草庐IT

python - spark 2.1.0 session 配置设置 (pyspark)

我正在尝试覆盖sparksession/spark上下文默认配置，但它正在选择整个节点/集群资源。spark=SparkSession.builder.master("ip").enableHiveSupport().getOrCreate()spark.conf.set("spark.executor.memory",'8g')spark.conf.set('spark.executor.cores','3')spark.conf.set('spark.cores.max','3')spark.conf.set("spark.driver.memory",'8g')sc=spark.

pyspark session spark 39 section python apache-spark spark-dataframe

python - spark 2.1.0 session 配置设置 (pyspark)

我正在尝试覆盖sparksession/spark上下文默认配置，但它正在选择整个节点/集群资源。spark=SparkSession.builder.master("ip").enableHiveSupport().getOrCreate()spark.conf.set("spark.executor.memory",'8g')spark.conf.set('spark.executor.cores','3')spark.conf.set('spark.cores.max','3')spark.conf.set("spark.driver.memory",'8g')sc=spark.

pyspark session spark 39 section python apache-spark spark-dataframe

python - 在 PySpark 中的 GroupedData 上应用 UDF(带有功能 Python 示例)

我有这个在pandas数据框中本地运行的python代码:df_result=pd.DataFrame(df.groupby('A').apply(lambdax:myFunction(zip(x.B,x.C),x.name))我想在PySpark中运行它，但无法处理pyspark.sql.group.GroupedData对象。我尝试了以下方法:sparkDF.groupby('A').agg(myFunction(zip('B','C'),'A'))返回KeyError:'A'我推测是因为“A”不再是一列，而且我找不到x.name的等价物。然后sparkDF.groupby('A'

GroupedData PySpark code pre 34 python apache-spark apache-spark-sql user-defined-functions

python - 在 PySpark 中的 GroupedData 上应用 UDF(带有功能 Python 示例)

我有这个在pandas数据框中本地运行的python代码:df_result=pd.DataFrame(df.groupby('A').apply(lambdax:myFunction(zip(x.B,x.C),x.name))我想在PySpark中运行它，但无法处理pyspark.sql.group.GroupedData对象。我尝试了以下方法:sparkDF.groupby('A').agg(myFunction(zip('B','C'),'A'))返回KeyError:'A'我推测是因为“A”不再是一列，而且我找不到x.name的等价物。然后sparkDF.groupby('A'

GroupedData PySpark code pre 34 python apache-spark apache-spark-sql user-defined-functions

python - PySpark 序列化 EOFError

我正在读取CSV作为SparkDataFrame并对其执行机器学习操作。我不断收到Python序列化EOFError-知道为什么吗？我认为这可能是一个内存问题——即文件超出了可用RAM——但大幅减小DataFrame的大小并不能防止EOF错误。下面的玩具代码和错误。#setsparkcontextconf=SparkConf().setMaster("local").setAppName("MyApp")sc=SparkContext(conf=conf)sqlContext=SQLContext(sc)#readin500mbcsvasDataFramedf=sqlContext.r

EOFError PySpark section spark python apache-spark apache-spark-1.6

python - PySpark 序列化 EOFError

我正在读取CSV作为SparkDataFrame并对其执行机器学习操作。我不断收到Python序列化EOFError-知道为什么吗？我认为这可能是一个内存问题——即文件超出了可用RAM——但大幅减小DataFrame的大小并不能防止EOF错误。下面的玩具代码和错误。#setsparkcontextconf=SparkConf().setMaster("local").setAppName("MyApp")sc=SparkContext(conf=conf)sqlContext=SQLContext(sc)#readin500mbcsvasDataFramedf=sqlContext.r

EOFError PySpark section spark python apache-spark apache-spark-1.6

python - 如何使用 Python/pyspark 运行 graphx？

我正在尝试使用pyspark通过Python运行Sparkgraphx。我的安装看起来是正确的，因为我能够很好地运行pyspark教程和(Java)GraphX教程。大概因为GraphX是Spark的一部分，pyspark应该能够接口(interface)它，对吗？以下是pyspark的教程:http://spark.apache.org/docs/0.9.0/quick-start.htmlhttp://spark.apache.org/docs/0.9.0/python-programming-guide.html以下是GraphX的:http://spark.apache.org

pyspark python 34 graphframes noreferrer hadoop graph-theory apache-spark

python - 如何使用 Python/pyspark 运行 graphx？

我正在尝试使用pyspark通过Python运行Sparkgraphx。我的安装看起来是正确的，因为我能够很好地运行pyspark教程和(Java)GraphX教程。大概因为GraphX是Spark的一部分，pyspark应该能够接口(interface)它，对吗？以下是pyspark的教程:http://spark.apache.org/docs/0.9.0/quick-start.htmlhttp://spark.apache.org/docs/0.9.0/python-programming-guide.html以下是GraphX的:http://spark.apache.org

pyspark python 34 graphframes noreferrer hadoop graph-theory apache-spark

python - Spark RDD 到 DataFrame python

我正在尝试将SparkRDD转换为DataFrame。我已经看到将方案传递给的文档和示例sqlContext.CreateDataFrame(rdd,schema)函数。但我有38个列或字段，这将进一步增加。如果我手动给schema指定每个字段信息，那将是一件非常乏味的工作。有没有其他方法可以在不知道之前列信息的情况下指定架构。最佳答案看，在Spark中有两种方法可以将RDD转换为DF。toDF()和createDataFrame(rdd,schema)我将向您展示如何动态地做到这一点。toDF()toDF()命令提供了将RDD

python DataFrame code section schema apache-spark pyspark spark-dataframe

python - Spark RDD 到 DataFrame python

我正在尝试将SparkRDD转换为DataFrame。我已经看到将方案传递给的文档和示例sqlContext.CreateDataFrame(rdd,schema)函数。但我有38个列或字段，这将进一步增加。如果我手动给schema指定每个字段信息，那将是一件非常乏味的工作。有没有其他方法可以在不知道之前列信息的情况下指定架构。最佳答案看，在Spark中有两种方法可以将RDD转换为DF。toDF()和createDataFrame(rdd,schema)我将向您展示如何动态地做到这一点。toDF()toDF()命令提供了将RDD

python DataFrame code section schema apache-spark pyspark spark-dataframe