PySpark_草庐IT

python - 如何估计pyspark中数据框的实际大小？

如何确定数据帧的大小？现在我估计数据框的实际大小如下:headers_size=keyforkeyindf.first().asDict()rows_size=df.map(lambdarow:len(valueforkey,valueinrow.asDict()).sum()total_size=headers_size+rows_size它太慢了，我正在寻找更好的方法。最佳答案来自TamasSzuromi的精彩帖子http://metricbrew.com/how-to-estimate-rdd-or-dataframe-r

python - PySpark 中等效的 Scala 案例类是什么？

您将如何在PySpark中使用和/或实现等效的案例类？最佳答案 Asmentioned通过AlexHall命名产品类型的真正等价物是namedtuple。不同于Row，在theotheranswer中建议，它有许多有用的属性:具有明确的形状，可以可靠地用于结构模式匹配:>>>fromcollectionsimportnamedtuple>>>>>>FooBar=namedtuple("FooBar",["foo","bar"])>>>foobar=FooBar(42,-42)>>>foo,bar=foobar>>>foo42>>>

等效 PySpark gt code FooBar python apache-spark case-class

python - 如何使用 Spark (pyspark) 编写 Parquet 文件？

我是Spark的新手，我一直在尝试将Dataframe转换为Spark中的parquet文件，但我还没有成功。documentation说我可以使用write.parquet函数来创建文件。但是，当我运行脚本时，它显示:AttributeError:'RDD'objecthasnoattribute'write'frompysparkimportSparkContextsc=SparkContext("local","ProtobConversiontoParquet")#sparkisanexistingSparkSessiondf=sc.textFile("/temp/proto_

编写 Parquet code section python pyspark spark-dataframe

python - 选择 PySpark 数据框中的列

我正在寻找一种在PySpark中选择数据框列的方法。对于第一行，我知道我可以使用df.first()，但不确定列是否没有列名。我有5列，想遍历每一列。+--+---+---+---+---+---+---+|_1|_2|_3|_4|_5|_6|_7|+--+---+---+---+---+---+---+|1|0.0|0.0|0.0|1.0|0.0|0.0||2|1.0|0.0|0.0|0.0|0.0|0.0||3|0.0|0.0|1.0|0.0|0.0|0.0| 最佳答案尝试这样的事情:df.select([cforcindf.

PySpark python 0.0 section code apache-spark apache-spark-sql

python - 如何在 PySpark 中创建自定义 Estimator

我正在尝试在PySparkMLlib中构建一个简单的自定义Estimator。我有here可以编写自定义Transformer，但我不确定如何在Estimator上执行此操作。我也不明白@keyword_only的作用以及为什么我需要这么多的setter和getter。Scikit-learn似乎有适合自定义模型的文档(seehere)，但PySpark没有。示例模型的伪代码:classNormalDeviation():def__init__(self,threshold=3):deffit(x,y=None):self.model={'mean':x.mean(),'std':x.

中创自定 self code centeredThreshold python apache-spark pyspark apache-spark-mllib apache-spark-ml

python - 在 Spark\PySpark 中保存\加载模型的正确方法是什么

我正在使用PySpark和MLlib处理Spark1.3.0，我需要保存和加载我的模型。我使用这样的代码(取自官方documentation)frompyspark.mllib.recommendationimportALS,MatrixFactorizationModel,Ratingdata=sc.textFile("data/mllib/als/test.data")ratings=data.map(lambdal:l.split(',')).map(lambdal:Rating(int(l[0]),int(l[1]),float(l[2])))rank=10numIterati

PySpark python model section java apache-spark apache-spark-mllib

python - 将 RDD 转换为可迭代的 : PySpark?

我有一个RDD，我通过加载一个文本文件并对其进行预处理来创建它。我不想收集它并将其保存到磁盘或内存(整个数据)，而是想将它传递给python中的其他函数，这些函数一个接一个地使用可迭代的数据。这怎么可能？data=sc.textFile('file.txt').map(lambdax:some_func(x))an_iterable=data.##whatshouldIdoheretomakeitgivemeoneelementatatime?defmodel1(an_iterable):foriinan_iterable:do_that(i)model(an_iterable)

PySpark python section an_iterable iterable apache-spark rdd

python - 文本列上的 Pyspark DataFrame UDF

我正在尝试对PySparkDataFrame中的某些Unicode列进行一些NLP文本清理。我已经在Spark1.3、1.5和1.6中尝试过，但似乎无法让事情在我的生活中发挥作用。我也尝试过使用Python2.7和Python3.4。我创建了一个非常简单的udf，如下所示，它应该只为新列中的每条记录返回一个字符串。其他函数将操作文本，然后将更改后的文本返回到新列中。importpysparkfrompyspark.sqlimportSQLContextfrompyspark.sql.typesimport*frompyspark.sqlimportSQLContextfrompyspa

DataFrame Pyspark scala spark apache python apache-spark apache-spark-sql

python - Pyspark StructType 未定义

我正在尝试构建用于数据库测试的架构，而StructType显然由于某种原因无法正常工作。我正在关注tut，它不会导入任何额外的模块。,NameError("name'StructType'isnotdefined",),)我使用的是spark1.4.0，如果这与问题有关，则使用Ubuntu12。我将如何解决这个问题？提前谢谢你。最佳答案您是否导入了StructType？如果不是frompyspark.sql.typesimportStructType应该可以解决问题。关于pytho

未定 StructType section code python apache-spark pyspark

python - 在 PySpark 中使用 Apache Spark 数据帧删除重音的最佳方法是什么？

我需要从不同数据集中删除西类牙语和其他语言字符的重音。我已经根据此post中提供的代码做了一个函数删除特殊的口音。问题在于该函数运行缓慢，因为它使用了UDF。我只是想知道我是否可以提高函数的性能以在更短的时间内获得结果，因为这对小数据帧有好处，但对大数据帧不利。提前致谢。这里是代码，您将能够按照显示的方式运行它:#Importingsqltypesfrompyspark.sql.typesimportStringType,IntegerType,StructType,StructFieldfrompyspark.sql.functionsimportudf,colimportunico

重音 PySpark 34 self code python apache-spark apache-spark-sql unicode-normalization