PySpark3_草庐IT

python - 从 PySpark 中的数据框中删除重复项

我在本地处理pyspark1.4中的数据帧，并且在使dropDuplicates方法起作用时遇到问题。它不断返回错误:"AttributeError:'list'objecthasnoattribute'dropDuplicates'"不太清楚为什么我似乎遵循了latestdocumentation中的语法.#loadingtheCSVfileintoanRDDinordertostartworkingwiththedatardd1=sc.textFile("C:\myfilename.csv").map(lambdaline:(line.split(",")[0],line.spli

python - Pyspark 将标准列表转换为数据框

这个问题在这里已经有了答案:CreateSparkDataFrame.Cannotinferschemafortype(4个答案)关闭4年前。案例非常简单，我需要使用以下代码将python列表转换为数据框frompyspark.sql.typesimportStructTypefrompyspark.sql.typesimportStructFieldfrompyspark.sql.typesimportStringType,IntegerTypeschema=StructType([StructField("value",IntegerType(),True)])my_list=[1

为数 Pyspark section StructType notice python apache-spark pyspark-sql

python - 如何计算 pyspark 数据框中每个不同值的计数？

我有一列以字符串形式填充了一堆州的首字母。我的目标是如何计算此类列表中每个州的数量。例如:(("TX":3),("NJ":2))应该是出现两次"TX"时的输出和“NJ”。我是pyspark的新手，所以我被这个问题难住了。任何帮助将不胜感激。最佳答案我认为您希望使用groupBy的DataFrame习惯用法和count.例如，给定以下数据框，每行一个状态:df=sqlContext.createDataFrame([('TX',),('NJ',),('TX',),('CA',),('NJ',)],('state',))df.sho

pyspark python section code dataframe

python - 如何将字符串类型的列转换为pyspark数据框中的int形式？

我在pyspark中有数据框。它的一些数字列包含nan，因此当我读取数据并检查数据帧的架构时，这些列将具有string类型。如何将它们更改为int类型。我用0替换了nan值并再次检查了架构，但随后它也显示了这些列的字符串类型。我遵循以下代码:data_df=sqlContext.read.format("csv").load('data.csv',header=True,inferSchema="true")data_df.printSchema()data_df=data_df.fillna(0)data_df.printSchema()我的数据是这样的:这里的列Plays和draf

pyspark python code data_df data dataframe apache-spark apache-spark-sql

python - 使用 monotonically_increasing_id() 将行号分配给 pyspark 数据帧

我正在使用monotonically_increasing_id()使用以下语法将行号分配给pyspark数据帧:df1=df1.withColumn("idx",monotonically_increasing_id())现在df1有26,572,528条记录。所以我期望idx值在0-26,572,527之间。但是当我选择max(idx)时，它的值出奇地大:335,008,054,165。这个函数是怎么回事？使用此函数与另一个具有相似记录数的数据集合并是否可靠？我有大约300个数据帧，我想将它们组合成一个数据帧。因此，一个数据框包含ID，而其他数据框包含与它们逐行对应的不同记录

行号配给 monotonically increasing code python indexing merge pyspark

python - 如何在 pySpark 数据框中添加行 ID

这个问题在这里已经有了答案:PrimarykeyswithApacheSpark(4个答案)关闭6年前。我有一个csv文件；我在pyspark中将其转换为DataFrame(df)；经过一些改造；我想在df中添加一列；这应该是简单的行ID(从0或1到N)。我将df转换为rdd并使用“zipwithindex”。我将生成的rdd转换回df。这种方法有效，但它生成了250k任务并且需要花费大量时间来执行。我想知道是否有其他方法可以减少运行时间。以下是我的代码片段；我正在处理的csv文件很大；包含数十亿行。debug_csv_rdd=(sc.textFile("debug.csv").fil

何在 pySpark section debug csv python apache-spark apache-spark-sql

python - spark-submit 和 pyspark 有什么区别？

如果我启动pyspark然后运行此命令:importmy_script;spark=my_script.Sparker(sc);spark.collapse('./data/')一切正常。但是，如果我尝试通过命令行和spark-submit做同样的事情，我会得到一个错误:Command:/usr/local/spark/bin/spark-submitmy_script.pycollapse./data/File"/usr/local/spark/python/pyspark/rdd.py",line352,infuncreturnf(iterator)File"/usr/local/

spark-submit pyspark spark section python apache-spark

apache-spark - 如何在 pyspark 流应用程序中使用具有不同主题的两个不同流将数据从 Kafka 存储到 Redis？

我有一个配置2个数据流的pyspark应用程序:数据流A)从kafka中读取(主题1和2)->合并主题DStreams->做一些事情->输出到REDIS。数据流B)从kafka读取(主题3、4和5)->合并主题DStreams->做一些事情->输出到相同的REDIS。只有配置了其中一个，我才能在REDIS中获取数据，但不能同时配置两个。实际上，即使我将REDIS输出更改为pprint，也会发生这种情况。如果两个流中只有一个处于事件状态，我只会打印输出。我错过了什么？最佳答案问题在于可用的执行线程数。Spark文档说每个接收器都使

何在 apache-spark section strong REDIS apache-kafka pyspark spark-streaming

python - 使用 pySpark 将 DataFrame 写入 mysql 表

我正在尝试将记录插入到MySql表中。该表包含id和name作为列。我在pysparkshell中执行以下操作。name='tester_1'id='103'importpandasaspdl=[id,name]df=pd.DataFrame([l])df.write.format('jdbc').options(url='jdbc:mysql://localhost/database_name',driver='com.mysql.jdbc.Driver',dbtable='DestinationTableName',user='your_user_name',password='y

DataFrame pySpark 39 code section python mysql apache-spark apache-spark-sql

apache-spark - Pyspark 简单的重新分区和 toPandas() 未能在 600,000+ 行上完成

我有JSON数据，我正在将这些数据读入一个包含多个字段的数据框中，根据两列对其进行重新分区，然后转换为Pandas。这项作业在仅600,000行数据上的EMR上不断失败，并带有一些模糊的错误。我还增加了Spark驱动程序的内存设置，但仍然看不到任何分辨率。这是我的pyspark代码:enhDataDf=(sqlContext.read.json(sys.argv[1]))enhDataDf=(enhDataDf.repartition('column1','column2').toPandas())enhDataDf=sqlContext.createDataFrame(enhData

apache-spark toPandas code enhDataDf ERROR memory pyspark distributed-computing bigdata