PySpark3

python - 从 Pyspark DataFrame 中的选定行获取特定字段

我有一个通过pyspark从JSON文件构建的SparkDataFramesc=SparkContext()sqlc=SQLContext(sc)users_df=sqlc.read.json('users.json')现在，我想访问一个chosen_user数据，这是它的_id字段。我能行printusers_df[users_df._id==chosen_user].show()这给了我完整的用户行。但是假设我只想要Row中的一个特定字段，比如用户性别，我该如何获取它？最佳答案只需过滤并选择:result=users_df.

python - iPython notebook 中的 PySpark 在使用 count() 和 first() 时引发 Py4JJavaError

我在iPythonnotebook(pythonv.3.6)中使用PySpark(v.2.1.0)而不是在我的Mac(Sierra10.12.3Beta)中使用virtualenv。1.我通过在终端中拍摄来启动iPythonnotebook-PYSPARK_PYTHON=python3PYSPARK_DRIVER_PYTHON=ipythonPYSPARK_DRIVER_PYTHON_OPTS="notebook"/Applications/spark-2.1.0-bin-hadoop2.7/bin/pyspark2.将我的文件加载到SparkContext并确保其已加载->>>lin

Py4JJavaError 4JJavaError spark apache python apache-spark pyspark virtualenv ipython-notebook

python - PySpark:当函数具有多个输出时

这个问题在这里已经有了答案:SparkEquivalentofIFThenELSE(4个答案)关闭5年前。我正在尝试使用“链接时间”函数。换句话说，我想要获得两个以上的输出。我尝试在Excel中使用与连接IF函数相同的逻辑:df.withColumn("device_id",when(col("device")=="desktop",1)).otherwise(when(col("device")=="mobile",2)).otherwise(null))但这不起作用，因为我不能将元组放入“otherwise”函数中。

PySpark python section notice 34 apache-spark pyspark-sql

python - 如何在pyspark脚本中访问SparkContext

下面的SOF问题HowtorunscriptinPysparkanddropintoIPythonshellwhendone?说明如何启动pyspark脚本:%run-dmyscript.py但是我们如何访问existinspark上下文呢？仅仅创建一个新的是行不通的:---->sc=SparkContext("local",1)ValueError:CannotrunmultipleSparkContextsatonce;existingSparkContext(app=PySparkShell,master=local)createdbyat/Library/Python/2.7/

何在 SparkContext code section python apache-spark pyspark

python - 按行中非空元素的计数对 PySpark Dataframe 进行统一分区

我知道有上千个问题与如何最好地划分您的DataFrames有关或RDDs通过salting键等，但我认为这种情况不同到足以证明它自己的问题。我正在PySpark中构建协同过滤推荐引擎，这意味着需要比较每个用户(行)的唯一项目评分。所以，对于DataFrame尺寸M(rows)xN(columns)，这意味着数据集变为Mx(Kchoose2)其中K是用户的非空(即评级)元素的数量。对于用户对项目数量大致相同的数据集，我的算法非常有效。但是，对于一部分用户对很多项目进行评分的情况(比同一分区中的其他用户大几个数量级)，我的数据变得极度倾斜并且最后几个分区开始占用大量资源时间量。举个简单的例

中非 Dataframe code partition name python performance machine-learning pyspark spark-dataframe

python - 安装 PySpark

我正在尝试安装PySpark并遵循instructions并在我安装了Spark的集群节点上从命令行运行它:$sbt/sbtassembly这会产生以下错误:-bash:sbt/sbt:Nosuchfileordirectory我尝试下一个命令:$./bin/pyspark我收到这个错误:-bash:./bin/pyspark:Nosuchfileordirectory我觉得我缺少一些基本的东西。什么不见了？我已经安装了spark并且可以使用以下命令访问它:$spark-shell我在节点上安装了python，并且能够使用以下命令打开python:$python

PySpark python code section pre installation apache-spark

python - 如何从 Pyspark 中的日期列中减去天数列？

给定以下PySparkDataFramedf=sqlContext.createDataFrame([('2015-01-15',10),('2015-02-15',5)],('date_col','days_col'))如何从日期列中减去天数列？在此示例中，结果列应为['2015-01-05','2015-02-10']。我查看了pyspark.sql.functions.date_sub()，但它需要一个日期列和一天，即date_sub(df['date_col'],10)。理想情况下，我更愿意执行date_sub(df['date_col'],df['days_col'])。我还

Pyspark python code date strong apache-spark apache-spark-sql user-defined-functions

python - pyspark 使用 partitionby 对数据进行分区

我了解partitionBy函数对我的数据进行分区。如果我使用rdd.partitionBy(100)，它会将我的数据按键分成100个部分。即与相似键关联的数据将被分组在一起我的理解正确吗？分区数等于分区数是否可取可用内核？这会使处理更有效率吗？如果我的数据不是键值格式怎么办。我还能使用这个功能吗？假设我的数据是serial_number_of_student,student_name。在这个情况下我可以按student_name而不是序列号？最佳答案不完全是。Spark，包括PySpark，isbydefaultusingha

partitionby pyspark code noreferrer noopener python apache-spark partitioning rdd

python - 如何在 Pyspark 中使用滑动窗口对时间序列数据进行数据转换

我正在尝试根据时间序列数据的滑动窗口提取特征。在Scala中，似乎有一个基于thispost的sliding函数。和thedocumentationimportorg.apache.spark.mllib.rdd.RDDFunctions._sc.parallelize(1to100,10).sliding(3).map(curSlice=>(curSlice.sum/curSlice.size)).collect()我的问题是PySpark中有类似的功能吗？或者如果没有这样的功能，我们如何实现类似的滑动窗口转换？最佳答案据我所

何在 Pyspark code sliding section python apache-spark time-series

python - PySpark:在日期为字符串的范围内按日期字段过滤 DataFrame

我的数据框包含一个日期字段，它以字符串格式出现，例如'2015-07-02T11:22:21.050Z'我需要根据日期过滤DataFrame以仅获取上周的记录。所以，我尝试了一种映射方法，我使用strptime将字符串日期转换为日期时间对象:defmap_to_datetime(row):format_string='%Y-%m-%dT%H:%M:%S.%fZ'row.date=datetime.strptime(row.date,format_string)df=df.map(map_to_datetime)然后我会应用一个过滤器作为df.filter(lambdarow:row.d

DataFrame PySpark section code datetime python date

42 43 444546 47 48