PySpark

python - 缓存有序的 Spark DataFrame 会创建不需要的作业

我想将RDD转换为DataFrame并想缓存RDD的结果:frompyspark.sqlimport*frompyspark.sql.typesimport*importpyspark.sql.functionsasfnschema=StructType([StructField('t',DoubleType()),StructField('value',DoubleType())])df=spark.createDataFrame(sc.parallelize([Row(t=float(i/10),value=float(i*i))foriinrange(1000)],4),#.ca

会创有序 code section cache python apache-spark pyspark apache-spark-sql pyspark-sql

python - 如何在集群上保存文件

我使用ssh连接到集群，我使用将程序发送到集群spark-submit--masteryarnmyProgram.py我想将结果保存在文本文件中，我尝试使用以下行:counts.write.json("hdfs://home/myDir/text_file.txt")counts.write.csv("hdfs://home/myDir/text_file.csv")但是，它们都不起作用。程序结束，但我在myDir中找不到文本文件。你知道我该怎么做吗？另外，有没有办法直接写入我的本地机器？编辑:我发现home目录不存在，所以现在我将结果保存为:counts.write.json("hd

何在 python code section text_file apache-spark pyspark hdfs spark-submit

python - Apache Spark Python 与 DataFrames 的余弦相似度

对于推荐系统，我需要计算整个SparkDataFrame的所有列之间的余弦相似度。在Pandas中，我曾经这样做过:importsklearn.metricsasmetricsimportpandasaspddf=pd.DataFrame(...somedataframeoverhere:D...)metrics.pairwise.cosine_similarity(df.T,df.T)生成列之间的相似度矩阵(因为我使用了转置)有什么方法可以在Spark(Python)中做同样的事情吗？(我需要将其应用于由数千万行和数千列组成的矩阵，所以这就是我需要在Spark中执行的原因)

DataFrames python section code RowMatrix apache-spark pyspark apache-spark-sql cosine-similarity

python - 如何在 PySpark 的 UDF 中返回 "Tuple type"？

所有datatypesinpyspark.sql.typesare:__all__=["DataType","NullType","StringType","BinaryType","BooleanType","DateType","TimestampType","DecimalType","DoubleType","FloatType","ByteType","IntegerType","LongType","ShortType","ArrayType","MapType","StructField","StructType"]我必须编写一个返回元组数组的UDF(在pyspark中)

何在 amp 34 code section python apache-spark dataframe pyspark apache-spark-sql

python - 将标准 python 键值字典列表转换为 pyspark 数据框

考虑我有一个python字典键值对列表，其中键对应于表的列名，因此对于下面的列表如何将其转换为具有两个colsarg1arg2的pyspark数据帧？[{"arg1":"","arg2":""},{"arg1":"","arg2":""},{"arg1":"","arg2":""}]我怎样才能使用以下结构来做到这一点？df=sc.parallelize([...]).toDF上面代码中arg1arg2放在哪里(...) 最佳答案旧方法:sc.parallelize([{"arg1":"","arg2":""},{"arg1":""

python pyspark 34 arg section dictionary apache-spark

python - 如何在 PySpark 中读取 Avro 文件

我正在使用python编写spark作业。但是，我需要读入一大堆avro文件。This是我在Spark的示例文件夹中找到的最接近的解决方案。但是，您需要使用spark-submit提交此python脚本。在spark-submit的命令行中，你可以指定driver-class，这样的话，你所有的avrokey，avrovalue类都会被找到。avro_rdd=sc.newAPIHadoopFile(path,"org.apache.avro.mapreduce.AvroKeyInputFormat","org.apache.avro.mapred.AvroKey","org.apach

何在 PySpark 34 avro code python apache-spark

python - 如何在 Spark (Python) 中对我的 Row 对象的字段进行排序

我正在Spark中创建Row对象。我不希望我的字段按字母顺序排列。但是，如果我执行以下操作，它们将按字母顺序排列。row=Row(foo=1,bar=2)然后它创建一个如下所示的对象:Row(bar=2,foo=1)然后，当我在此对象上创建一个数据框时，列顺序将首先是bar，然后是foo，而我更愿意采用相反的顺序。我知道我可以使用“_1”和“_2”(分别代表“foo”和“bar”)，然后分配一个架构(具有适当的“foo”和“bar”名称)。但是有什么方法可以防止Row对象对它们进行排序吗？最佳答案 Spark>=3.0字段排序已被

何在 python code pre section apache-spark pyspark apache-spark-sql

python - 如何从 RDD[PYSPARK] 中删除重复值

我有下表作为RDD:KeyValue1y1y1y1n1n2y2n2n我想从Value中删除所有重复项。输出应该是这样的:KeyValue1y1n2y2n在pyspark中工作时，输出应该是像这样的键值对列表:[(u'1',u'n'),(u'2',u'n')]我不知道如何在这里应用for循环。在普通的Python程序中，这会非常容易。我想知道pyspark中是否有一些相同的功能。最佳答案恐怕我对python一无所知，所以我在这个答案中提供的所有引用和代码都是与java相关的。但是，将它翻译成python代码应该不是很困难。你应该看

PYSPARK python code section pre apache-spark rdd

python - Spark 程序在独立集群上运行时给出奇怪的结果

我有这个spark程序，我会尽量将它限制在相关部分#Splitbydelimiter,#Ifthefileisinunicode,weneedtoconverteachvaluetoafloatinordertobeableto#treatitasanumberpoints=sc.textFile(filename).map(lambdaline:[float(x)forxinline.split(",")]).persist()#startwithKrandomlyselectedpointsfromthedataset#Acentroidcannotbeanactualdatapo

python Spark centroids lambda weight apache-spark pyspark bigdata

python - 数据源用完时如何停止 Spark 流

我有一个SparkStreaming作业，每5秒从Kafka读取一次，对传入数据进行一些转换，然后写入文件系统。这真的不需要成为流式传输作业，实际上，我只想每天运行一次以将消息排入文件系统。不过，我不确定如何停止这项工作。如果我将超时传递给streamingContext.awaitTermination，它不会停止进程，它所做的只是导致进程在需要迭代流时产生错误(参见下面的错误)完成我想做的事情的最好方法是什么这是针对Python上的Spark1.6编辑:感谢@marios，解决方案是这样的:ssc.start()ssc.awaitTermination(10)ssc.stop()在

python Spark scala streaming apache apache-spark apache-kafka pyspark spark-streaming

25 26 272829 30 31