草庐IT

PySpark3

全部标签

python - 如何在anaconda中导入pyspark

我正在尝试将pyspark与anaconda一起使用。安装spark并设置$SPARK_HOME变量后,我尝试了:$pipinstallpyspark这(当然)行不通,因为我发现我需要通过telpython来查找$SPARK_HOME/python/下的pyspark。问题是要做到这一点,我需要设置$PYTHONPATH而anaconda不使用该环境变量。我试图将$SPARK_HOME/python/的内容复制到ANACONDA_HOME/lib/python2.7/site-packages/但它不起作用。在anaconda中使用pyspark有什么解决方案吗?

python - 如何在 PySpark DataFrame 中将 ArrayType 转换为 DenseVector?

我在尝试构建MLPipeline时遇到以下错误:pyspark.sql.utils.IllegalArgumentException:'requirementfailed:Columnfeaturesmustbeoftypeorg.apache.spark.ml.linalg.VectorUDT@3bfc3ba7butwasactuallyArrayType(DoubleType,true).'我的features列包含一个浮点值数组。听起来我需要将它们转换为某种类型的向量(它不是稀疏的,所以是DenseVector?)。有没有办法直接在DataFrame上执行此操作,还是我需要转换为

python - 如何从 'pyspark.sql.types.Row' 获取所有列/属性名称?

我正在使用Spark1.4.1版的PythonAPI。我的行对象看起来像这样:row_info=Row(name=Tim,age=5,is_subscribed=false)我怎样才能得到对象属性的列表?类似于:["name","age","is_subscribed"] 最佳答案 如果您不关心顺序,您可以简单地从dict中提取这些:list(row_info.asDict())否则我知道的唯一选择是直接使用__fields__:row_info.__fields__ 关于python-

python - 从 pyspark 中的数据框构建 StructType

我是spark和python的新手,面临着从可应用于我的数据文件的元数据文件构建模式的困难。场景:数据文件的元数据文件(csv格式),包含列及其类型:例如:id,int,10,"","",id,"","",TRUE,"",0created_at,timestamp,"","","",created_at,"","",FALSE,"",0我已成功将其转换为如下所示的数据框:+--------------------+---------------+|name|type|+--------------------+---------------+|id|IntegerType()||cre

python - 如何在 pyspark 中获取 Python 库?

我想在pyspark中使用matplotlib.bblpath或shapely.geometry库。当我尝试导入它们中的任何一个时,出现以下错误:>>>fromshapely.geometryimportpolygonTraceback(mostrecentcalllast):File"",line1,inImportError:Nomodulenamedshapely.geometry我知道该模块不存在,但如何将这些包引入我的pyspark库? 最佳答案 在Spark上下文中尝试使用:SparkContext.addPyFile(

python - pyspark 错误 : AttributeError: 'SparkSession' object has no attribute 'parallelize'

我在Jupyternotebook上使用pyspark。以下是Spark的设置方式:importfindsparkfindspark.init(spark_home='/home/edamame/spark/spark-2.0.0-bin-spark-2.0.0-bin-hadoop2.6-hive',python_path='python2.7')importpysparkfrompyspark.sqlimport*sc=pyspark.sql.SparkSession.builder.master("yarn-client").config("spark.executor.memo

python - 如何估计pyspark中数据框的实际大小?

如何确定数据帧的大小?现在我估计数据框的实际大小如下:headers_size=keyforkeyindf.first().asDict()rows_size=df.map(lambdarow:len(valueforkey,valueinrow.asDict()).sum()total_size=headers_size+rows_size它太慢了,我正在寻找更好的方法。 最佳答案 来自TamasSzuromi的精彩帖子http://metricbrew.com/how-to-estimate-rdd-or-dataframe-r

python - PySpark 中等效的 Scala 案例类是什么?

您将如何在PySpark中使用和/或实现等效的案例类? 最佳答案 Asmentioned通过AlexHall命名产品类型的真正等价物是namedtuple。不同于Row,在theotheranswer中建议,它有许多有用的属性:具有明确的形状,可以可靠地用于结构模式匹配:>>>fromcollectionsimportnamedtuple>>>>>>FooBar=namedtuple("FooBar",["foo","bar"])>>>foobar=FooBar(42,-42)>>>foo,bar=foobar>>>foo42>>>

python - 如何使用 Spark (pyspark) 编写 Parquet 文件?

我是Spark的新手,我一直在尝试将Dataframe转换为Spark中的parquet文件,但我还没有成功。documentation说我可以使用write.parquet函数来创建文件。但是,当我运行脚本时,它显示:AttributeError:'RDD'objecthasnoattribute'write'frompysparkimportSparkContextsc=SparkContext("local","ProtobConversiontoParquet")#sparkisanexistingSparkSessiondf=sc.textFile("/temp/proto_

python - 选择 PySpark 数据框中的列

我正在寻找一种在PySpark中选择数据框列的方法。对于第一行,我知道我可以使用df.first(),但不确定列是否没有列名。我有5列,想遍历每一列。+--+---+---+---+---+---+---+|_1|_2|_3|_4|_5|_6|_7|+--+---+---+---+---+---+---+|1|0.0|0.0|0.0|1.0|0.0|0.0||2|1.0|0.0|0.0|0.0|0.0|0.0||3|0.0|0.0|1.0|0.0|0.0|0.0| 最佳答案 尝试这样的事情:df.select([cforcindf.