PySpark_草庐IT

python - 连接两个 PySpark 数据帧

我正在尝试将两个PySpark数据帧与仅在其中一个上的一些列连接起来:frompyspark.sql.functionsimportrandn,randdf_1=sqlContext.range(0,10)+--+|id|+--+|0||1||2||3||4||5||6||7||8||9|+--+df_2=sqlContext.range(11,20)+--+|id|+--+|10||11||12||13||14||15||16||17||18||19|+--+df_1=df_1.select("id",rand(seed=10).alias("uniform"),randn(seed

python - 使用类似 SQL 的 IN 子句过滤 Pyspark DataFrame

我想用类似SQL的IN子句过滤PysparkDataFrame，如sc=SparkContext()sqlc=SQLContext(sc)df=sqlc.sql('SELECT*frommy_dfWHEREfield1INa')其中a是元组(1,2,3)。我收到此错误:java.lang.RuntimeException:[1.67]failure:``(''expectedbutidentifierafound这基本上是说它期待像'(1,2,3)'而不是a.问题是我无法在a中手动写入值，因为它是从另一个作业中提取的。在这种情况下我将如何过滤？最佳答案

DataFrame Pyspark code 34 section python sql apache-spark

python - Pyspark:将多个数组列拆分为行

我有一个数据框，它有一行和几列。一些列是单个值，而其他列是列表。所有列表列的长度相同。我想将每个列表列拆分为单独的行，同时保持所有非列表列不变。样本DF:frompysparkimportRowfrompyspark.sqlimportSQLContextfrompyspark.sql.functionsimportexplodesqlc=SQLContext(sc)df=sqlc.createDataFrame([Row(a=1,b=[1,2,3],c=[7,8,9],d='foo')])#+---+---------+---------+---+#|a|b|c|d|#+---+--

Pyspark python 34 code explode apache-spark dataframe apache-spark-sql

python - 如何在pyspark中将DataFrame转换回正常的RDD？

我需要使用(rdd.)partitionBy(npartitions,custom_partitioner)DataFrame上不可用的方法。所有DataFrame方法仅引用DataFrame结果。那么如何从DataFrame数据中创建一个RDD呢？注意:这是对1.2.0的更改(在1.3.0中)。更新来自@dpangmao的回答:方法是.rdd。我有兴趣了解(a)它是否公开，以及(b)对性能有何影响。嗯(a)是肯定的，(b)——你可以在这里看到有显着的性能影响:必须通过调用mapPartitions创建一个新的RDD:在dataframe.py中(注意文件名也发生了变化(原为sql

何在 DataFrame section strong python apache-spark pyspark

python - 在 PySpark 中按降序排序

我正在使用PySpark(Python2.7.9/Spark1.3.1)并且有一个数据框GroupObject，我需要按降序过滤和排序。试图通过这段代码来实现。group_by_dataframe.count().filter("`count`>=10").sort('count',ascending=False)但它会引发以下错误。sort()gotanunexpectedkeywordargument'ascending' 最佳答案在PySpark1.3中，sort方法不采用升序参数。您可以改用desc方法:frompyspa

PySpark python code section count apache-spark dataframe apache-spark-sql

python - 如何将 PyCharm 与 PySpark 链接？

我是apachespark的新手，显然我在我的macbook中安装了带有homebrew的apache-spark:Lastlogin:FriJan812:52:04onconsoleuser@MacBook-Pro-de-User-2:~$pysparkPython2.7.10(default,Jul132015,12:05:58)[GCC4.2.1CompatibleAppleLLVM6.1.0(clang-602.0.53)]ondarwinType"help","copyright","credits"or"license"formoreinformation.UsingSpa

PyCharm PySpark code strong spark python apache-spark homebrew

python - 如何在 PySpark 中将数据框列从 String 类型更改为 Double 类型？

我有一个列作为字符串的数据框。我想在PySpark中将列类型更改为Double类型。以下是方式，我做到了:toDoublefunc=UserDefinedFunction(lambdax:x,DoubleType())changedTypedf=joindf.withColumn("label",toDoublefunc(joindf['show']))只是想知道，这是运行时的正确方法吗通过逻辑回归，我得到了一些错误，所以我想知道，这就是麻烦的原因吗？最佳答案这里不需要UDF。列已提供castmethod与DataType实例:

何在 PySpark code prettyprint-override 39 python apache-spark dataframe apache-spark-sql

java - PySpark:java.lang.OutofMemoryError:Java 堆空间

我最近在具有24个CPU和32GBRAM的服务器上使用PySpark和Ipython。它只在一台机器上运行。在我的过程中，我想收集大量数据，如下代码所示:train_dataRDD=(train.map(lambdax:getTagsAndText(x)).filter(lambdax:x[-1]!=[]).flatMap(lambda(x,text,tags):[(tag,(x,text))fortagintags]).groupByKey().mapValues(list))当我这样做时training_data=train_dataRDD.collectAsMap()它给了我ou

java OutofMemoryError spark code section apache-spark out-of-memory heap-memory pyspark

python - 将 JSON 文件读入 Spark 时出现 _corrupt_record 错误

我有这个JSON文件{"a":1,"b":2}通过Pythonjson.dump方法获得。现在，我想使用pyspark将此文件读入Spark中的DataFrame。按照文档，我正在这样做sc=SparkContext()sqlc=SQLContext(sc)df=sqlc.read.json('my_file.json')printdf.show()虽然打印语句会吐出这个:+---------------+|_corrupt_record|+---------------+|{||"a":1,||"b":2||}|+---------------+任何人都知道发生了什么以及为什么它没有

时出读入 section code json python dataframe pyspark

python - 将 JSON 文件读入 Spark 时出现 _corrupt_record 错误

我有这个JSON文件{"a":1,"b":2}通过Pythonjson.dump方法获得。现在，我想使用pyspark将此文件读入Spark中的DataFrame。按照文档，我正在这样做sc=SparkContext()sqlc=SQLContext(sc)df=sqlc.read.json('my_file.json')printdf.show()虽然打印语句会吐出这个:+---------------+|_corrupt_record|+---------------+|{||"a":1,||"b":2||}|+---------------+任何人都知道发生了什么以及为什么它没有

时出读入 section code json python dataframe pyspark