pySpark

python - 如何将 pyspark 数据帧写入 HDFS，然后如何将其读回数据帧？

我有一个非常大的pyspark数据框。所以我想对它的子集进行预处理，然后存储到hdfs中。稍后我想阅读所有这些并合并在一起。谢谢。最佳答案将DataFrame写入HDFS(Spark1.6)。df.write.save('/target/path/',format='parquet',mode='append')##dfisanexistingDataFrameobject.一些格式选项是csv、parquet、json等从HDFS(Spark1.6)读取DataFrame。frompyspark.sqlimportSQLCon

python - 如何查找 pyspark 数据帧内存使用情况？

对于pythondataframe，info()函数提供了内存使用情况。pyspark中是否有任何等效项？谢谢最佳答案尝试使用the_to_java_object_rdd()function:importpy4j.protocolfrompy4j.protocolimportPy4JJavaErrorfrompy4j.java_gatewayimportJavaObjectfrompy4j.java_collectionsimportJavaArray,JavaListfrompysparkimportRDD,SparkCont

pyspark python section import object apache-spark dataframe

python - Spark Dataframe 中 `float` 与 `np.nan` 的比较

这是预期的行为吗？我想提出一个Spark问题，但这似乎是一个基本功能，很难想象这里有一个错误。我错过了什么？pythonimportnumpyasnp>>>np.nan>>np.nan>0.0FalsePySparkfrompyspark.sql.functionsimportcoldf=spark.createDataFrame([(np.nan,0.0),(0.0,np.nan)])df.show()#+---+---+#|_1|_2|#+---+---+#|NaN|0.0|#|0.0|NaN|#+---+---+df.printSchema()#root#|--_1:double

Dataframe python code NaN pre numpy apache-spark pyspark

java - pyspark 无法识别 spark.read.load() 中 1989Dec31 和 31Dec1989 等日期的 MMM dateFormat 模式

我遇到了一个非常奇怪的问题pyspark在macOSSierra上。我的目标是解析ddMMMyyyy中的日期格式(例如:31Dec1989)但出现错误。我运行Spark2.0.1、Python2.7.10和Java1.8.0_101。我也尝试使用Anaconda4.2.0(它随Python2.7.12一起提供)，但也出现错误。相同的代码在具有相同Java版本和Python2.7.9的UbuntuServer15.04上运行没有任何错误。officialdocumentation关于spark.read.load()状态:dateFormat–setsthestringthatindic

1989 dateFormat code 34 spark java python apache-spark pyspark date-formatting

python - 在 PySpark 中以编程方式设置驱动程序的内存大小

为了编写独立脚本，我想直接从Python启动和配置Spark上下文。使用PySpark的脚本，我可以设置驱动程序的内存大小:$/opt/spark-1.6.1/bin/pyspark...INFOMemoryStore:MemoryStorestartedwithcapacity511.5MB...$/opt/spark-1.6.1/bin/pyspark--confspark.driver.memory=10g...INFOMemoryStore:MemoryStorestartedwithcapacity7.0GB...但是从Python模块启动context时，无法设置drive

PySpark 驱动 code section spark python apache-spark

python - Pyspark RDD .filter() 带通配符

我有一个PysparkRDD，其中有一个我想用作过滤器的文本列，所以我有以下代码:table2=table1.filter(lambdax:x[12]=="*TEXT*")问题是...如您所见，我正在使用*试图告诉他将其解释为通配符，但没有成功。没有人有帮助吗？最佳答案 lambda函数是纯python函数，所以像下面这样的东西就可以了table2=table1.filter(lambdax:"TEXT"inx[12]) 关于python-PysparkRDD.filter()带通配符

Pyspark python section code table apache-spark rdd

python - pyspark 中减少数据帧的最有效方法是什么？

我有以下数据框，第一行看起来像这样:['station_id','country','temperature','time']['12','usa','22','12:04:14']我想按“法国”前100个站点的降序显示平均温度。在pyspark中最好(最有效)的方法是什么？最佳答案我们通过以下方式将您的查询转换为SparkSQL:frompyspark.sql.functionsimportmean,descdf.filter(df["country"]=="france")\#onlyfrenchstations.group

pyspark python section code 39 apache-spark

python - 为什么对 rand() 生成的列进行操作的 PySpark UDF 会失败？

给定以下Python函数:deff(col):returncol如果我将其转换为UDF并将其应用于列对象，它就可以工作...frompyspark.sqlimportfunctionsasFfrompyspark.sql.typesimportDoubleTypedf=spark.range(10)udf=F.udf(f,returnType=DoubleType()).asNondeterministic()df.withColumn('new',udf(F.lit(0))).show()...除非该列是由rand生成的:df.withColumn('new',udf(F.rand(

PySpark python code rand withColumn apache-spark

python - 从 Pyspark 中的 RDD 中提取字典

这是一道作业题:我有一个RDD，它是元组集合。我还有从每个输入元组返回字典的函数。不知何故，与reduce函数相反。有了map，我可以很容易地从元组的RDD到字典的RDD。但是，由于字典是(key,value)对的集合，我想将字典的RDD转换为(key,value)元组的RDD每个字典的内容。那样的话，如果我的RDD包含10个元组，那么我会得到一个RDD包含10个字典和5个元素(例如)，最后我得到一个RDD50个元组。我认为这一定是可能的，但是如何实现呢？(可能是我不知道这个操作英文怎么叫的问题) 最佳答案我的2美分:有一个名为“

Pyspark python code section RDD apache-spark

python - PySpark 中的列过滤

我有一个从Hive表加载的数据帧df，它有一个时间戳列，比如ts，字符串类型的格式为dd-MMM-yyhh.mm.ss.MSa(转换为python日期时间库，这是%d-%b-%y%I.%M.%S.%f%p)。现在我想过滤数据框中最近五分钟的行:only_last_5_minutes=df.filter(datetime.strptime(df.ts,'%d-%b-%y%I.%M.%S.%f%p')>datetime.now()-timedelta(minutes=5))但是，这不起作用，我收到了这条消息TypeError:strptime()argument1mustbestring,

PySpark python code datetime minutes lambda apache-spark apache-spark-sql

18 19 202122 23 24