PySpark_草庐IT

python - 如何从 Pyspark 中的日期列中减去天数列？

给定以下PySparkDataFramedf=sqlContext.createDataFrame([('2015-01-15',10),('2015-02-15',5)],('date_col','days_col'))如何从日期列中减去天数列？在此示例中，结果列应为['2015-01-05','2015-02-10']。我查看了pyspark.sql.functions.date_sub()，但它需要一个日期列和一天，即date_sub(df['date_col'],10)。理想情况下，我更愿意执行date_sub(df['date_col'],df['days_col'])。我还

python - pyspark 使用 partitionby 对数据进行分区

我了解partitionBy函数对我的数据进行分区。如果我使用rdd.partitionBy(100)，它会将我的数据按键分成100个部分。即与相似键关联的数据将被分组在一起我的理解正确吗？分区数等于分区数是否可取可用内核？这会使处理更有效率吗？如果我的数据不是键值格式怎么办。我还能使用这个功能吗？假设我的数据是serial_number_of_student,student_name。在这个情况下我可以按student_name而不是序列号？最佳答案不完全是。Spark，包括PySpark，isbydefaultusingha

partitionby pyspark code noreferrer noopener python apache-spark partitioning rdd

python - 如何在 Pyspark 中使用滑动窗口对时间序列数据进行数据转换

我正在尝试根据时间序列数据的滑动窗口提取特征。在Scala中，似乎有一个基于thispost的sliding函数。和thedocumentationimportorg.apache.spark.mllib.rdd.RDDFunctions._sc.parallelize(1to100,10).sliding(3).map(curSlice=>(curSlice.sum/curSlice.size)).collect()我的问题是PySpark中有类似的功能吗？或者如果没有这样的功能，我们如何实现类似的滑动窗口转换？最佳答案据我所

何在 Pyspark code sliding section python apache-spark time-series

python - PySpark:在日期为字符串的范围内按日期字段过滤 DataFrame

我的数据框包含一个日期字段，它以字符串格式出现，例如'2015-07-02T11:22:21.050Z'我需要根据日期过滤DataFrame以仅获取上周的记录。所以，我尝试了一种映射方法，我使用strptime将字符串日期转换为日期时间对象:defmap_to_datetime(row):format_string='%Y-%m-%dT%H:%M:%S.%fZ'row.date=datetime.strptime(row.date,format_string)df=df.map(map_to_datetime)然后我会应用一个过滤器作为df.filter(lambdarow:row.d

DataFrame PySpark section code datetime python date

python - 将逗号分隔的字符串转换为 pyspark 数据框中的数组

我有一个如下所示的数据框，其中ev是字符串类型。>>>df2.show()+---+--------------+|id|ev|+---+--------------+|1|200,201,202||1|23,24,34,45||1|null||2|32||2|null|+---+--------------+有没有办法在不使用UDF的情况下将ev转换为类型ArrayType，或者UDF是唯一的选择？最佳答案您可以使用内置的split函数:frompyspark.sql.functionsimportcol,splitdf=sc

pyspark python 34 section code apache-spark dataframe apache-spark-sql

python - 如何在交互式 PySpark session 中更改 SparkContext 属性

如何在pyspark交互式shell中更改spark.driver.maxResultSize？我使用了以下代码frompysparkimportSparkConf,SparkContextconf=(SparkConf().set("spark.driver.maxResultSize","10g"))sc.stop()sc=SparkContext(conf)但它给了我错误AttributeError:'SparkConf'objecthasnoattribute'_get_object_id' 最佳答案在Spark2.3.1

何在 SparkContext strong code spark python apache-spark pyspark

python - 比较 Pyspark 中的列

我正在处理一个包含n列的PySparkDataFrame。我有一组m列(m例如:输入:PySparkDataFrame包含:col_1=[1,2,3],col_2=[2,1,4],col_3=[3,2,5]输出:col_4=max(col1,col_2,col_3)=[3,2,5]Pandas中有类似的东西，如this中所述。问题。在PySpark中有什么方法可以做到这一点，还是我应该更改将我的PySparkdf转换为Pandasdf然后执行操作？最佳答案您可以减少对列列表使用SQL表达式:frompyspark.sql.fun

Pyspark python 34 code col apache-spark

python - 使用 Pyspark 和 Hive 显示来自特定数据库的表

在Hive实例中有一些数据库和表。我想显示某些特定数据库的表(比如3_db)。+------------------+--+| database_name |+------------------+--+|1_db ||2_db ||3_db |+------------------+--+如果我从bash-nothingcomplex那里输入直线，我只需执行以下操作:showdatabases;showtablesfrom3_db;当我通过ipythonnotebeook使用pyspark时——我的廉价技巧在那里不起作用，而是在第二行给我错误

Pyspark python section code show apache-spark hive beeline

python - PySpark - 字符串匹配以创建新列

我有一个像这样的数据框:IDNotes2345CheckedbyJohn2398VerifiedbyStacy3983DoubleCheckedon2/23/17byMarsha例如，假设只有3名员工需要检查:John、Stacy或Marsha。我想像这样创建一个新专栏:IDNotesEmployee2345CheckedbyJohnJohn2398VerifiedbyStacyStacy3983DoubleCheckedon2/23/17byMarshaMarsharegex和grep哪个更好？我应该尝试什么样的功能？谢谢!编辑:我一直在尝试多种解决方案，但似乎没有任何效果。我应该放

PySpark python code strong 39 regex apache-spark apache-spark-sql

python - 没有模块名称pyspark错误

这是我正在学习的教程中的确切代码。我的同学用同样的代码没有得到这个错误:ImportErrorTraceback(mostrecentcalllast)in()---->1frompysparkimportSparkContext2sc=SparkContext('local','Exam_3')34frompyspark.sqlimportSQLContext5sqlContext=SQLContext(sc)ImportError:Nomodulenamedpyspark这是代码:frompysparkimportSparkContextsc=SparkContext('local

pyspark python code section