PySpark3

python - PySpark:when子句中的多个条件

我想修改当前为空白的数据框列(Age)的单元格值，并且仅当另一列(Survived)的相应行的值为0时，我才会这样做，而该行的Age为空白。如果它在Survived列中为1，但在Age列中为空白，那么我将其保留为null。我尝试使用&&运算符，但没有成功。这是我的代码:tdata.withColumn("Age",when((tdata.Age==""&&tdata.Survived=="0"),mean_age_0).otherwise(tdata.Age)).show()任何建议如何处理？谢谢。错误信息:SyntaxError:invalidsyntaxFile"",line1td

PySpark python code 34 section apache-spark dataframe apache-spark-sql

python - 如何对 PySpark 程序进行单元测试？

我当前的Java/Spark单元测试方法通过使用“本地”实例化SparkContext并使用JUnit运行单元测试来工作(详细here)。必须组织代码在一个函数中执行I/O，然后使用多个RDD调用另一个函数。这很好用。我有一个用Java+Spark编写的经过高度测试的数据转换。我可以用Python做同样的事情吗？如何使用Python运行Spark单元测试？最佳答案我也建议使用py.test。py.test可以轻松创建可重用的SparkContext测试装置并使用它来编写简洁的测试函数。您还可以专门化夹具(例如创建Streamin

PySpark python spark section test unit-testing apache-spark

python - 如何加入 Pyspark 中的多个列？

我正在使用Spark1.3，并希望使用python接口(interface)(SparkSQL)加入多个列以下作品:我首先将它们注册为临时表。numeric.registerTempTable("numeric")Ref.registerTempTable("Ref")test=numeric.join(Ref,numeric.ID==Ref.ID,joinType='inner')我现在想根据多个列加入它们。我得到SyntaxError:invalidsyntaxwiththis:test=numeric.join(Ref,numeric.ID==Ref.IDANDnumeric.T

Pyspark python code 34 section apache-spark join apache-spark-sql

python - 在pyspark中检索每组DataFrame中的前n个

pyspark中有一个DataFrame，数据如下:user_idobject_idscoreuser_1object_13user_1object_11user_1object_22user_2object_15user_2object_22user_2object_26我期望的是在每个组中返回2条具有相同user_id的记录，这些记录需要获得最高分。因此，结果应如下所示:user_idobject_idscoreuser_1object_13user_1object_22user_2object_26user_2object_15我真的是pyspark的新手，谁能给我一个代码片段或

DataFrame pyspark object user 34 python apache-spark apache-spark-sql

python - 连接两个 PySpark 数据帧

我正在尝试将两个PySpark数据帧与仅在其中一个上的一些列连接起来:frompyspark.sql.functionsimportrandn,randdf_1=sqlContext.range(0,10)+--+|id|+--+|0||1||2||3||4||5||6||7||8||9|+--+df_2=sqlContext.range(11,20)+--+|id|+--+|10||11||12||13||14||15||16||17||18||19|+--+df_1=df_1.select("id",rand(seed=10).alias("uniform"),randn(seed

PySpark python None normal code apache-spark apache-spark-sql

python - 使用类似 SQL 的 IN 子句过滤 Pyspark DataFrame

我想用类似SQL的IN子句过滤PysparkDataFrame，如sc=SparkContext()sqlc=SQLContext(sc)df=sqlc.sql('SELECT*frommy_dfWHEREfield1INa')其中a是元组(1,2,3)。我收到此错误:java.lang.RuntimeException:[1.67]failure:``(''expectedbutidentifierafound这基本上是说它期待像'(1,2,3)'而不是a.问题是我无法在a中手动写入值，因为它是从另一个作业中提取的。在这种情况下我将如何过滤？最佳答案

DataFrame Pyspark code 34 section python sql apache-spark

python - Pyspark:将多个数组列拆分为行

我有一个数据框，它有一行和几列。一些列是单个值，而其他列是列表。所有列表列的长度相同。我想将每个列表列拆分为单独的行，同时保持所有非列表列不变。样本DF:frompysparkimportRowfrompyspark.sqlimportSQLContextfrompyspark.sql.functionsimportexplodesqlc=SQLContext(sc)df=sqlc.createDataFrame([Row(a=1,b=[1,2,3],c=[7,8,9],d='foo')])#+---+---------+---------+---+#|a|b|c|d|#+---+--

Pyspark python 34 code explode apache-spark dataframe apache-spark-sql

python - 如何在pyspark中将DataFrame转换回正常的RDD？

我需要使用(rdd.)partitionBy(npartitions,custom_partitioner)DataFrame上不可用的方法。所有DataFrame方法仅引用DataFrame结果。那么如何从DataFrame数据中创建一个RDD呢？注意:这是对1.2.0的更改(在1.3.0中)。更新来自@dpangmao的回答:方法是.rdd。我有兴趣了解(a)它是否公开，以及(b)对性能有何影响。嗯(a)是肯定的，(b)——你可以在这里看到有显着的性能影响:必须通过调用mapPartitions创建一个新的RDD:在dataframe.py中(注意文件名也发生了变化(原为sql

何在 DataFrame section strong python apache-spark pyspark

python - 在 PySpark 中按降序排序

我正在使用PySpark(Python2.7.9/Spark1.3.1)并且有一个数据框GroupObject，我需要按降序过滤和排序。试图通过这段代码来实现。group_by_dataframe.count().filter("`count`>=10").sort('count',ascending=False)但它会引发以下错误。sort()gotanunexpectedkeywordargument'ascending' 最佳答案在PySpark1.3中，sort方法不采用升序参数。您可以改用desc方法:frompyspa

PySpark python code section count apache-spark dataframe apache-spark-sql

python - 如何将 PyCharm 与 PySpark 链接？

我是apachespark的新手，显然我在我的macbook中安装了带有homebrew的apache-spark:Lastlogin:FriJan812:52:04onconsoleuser@MacBook-Pro-de-User-2:~$pysparkPython2.7.10(default,Jul132015,12:05:58)[GCC4.2.1CompatibleAppleLLVM6.1.0(clang-602.0.53)]ondarwinType"help","copyright","credits"or"license"formoreinformation.UsingSpa

PyCharm PySpark code strong spark python apache-spark homebrew

50 51 525354 55 56