pyspark-dataframes

python - 安装 PySpark

我正在尝试安装PySpark并遵循instructions并在我安装了Spark的集群节点上从命令行运行它:$sbt/sbtassembly这会产生以下错误:-bash:sbt/sbt:Nosuchfileordirectory我尝试下一个命令:$./bin/pyspark我收到这个错误:-bash:./bin/pyspark:Nosuchfileordirectory我觉得我缺少一些基本的东西。什么不见了？我已经安装了spark并且可以使用以下命令访问它:$spark-shell我在节点上安装了python，并且能够使用以下命令打开python:$python

python - 如何从 Pyspark 中的日期列中减去天数列？

给定以下PySparkDataFramedf=sqlContext.createDataFrame([('2015-01-15',10),('2015-02-15',5)],('date_col','days_col'))如何从日期列中减去天数列？在此示例中，结果列应为['2015-01-05','2015-02-10']。我查看了pyspark.sql.functions.date_sub()，但它需要一个日期列和一天，即date_sub(df['date_col'],10)。理想情况下，我更愿意执行date_sub(df['date_col'],df['days_col'])。我还

Pyspark python code date strong apache-spark apache-spark-sql user-defined-functions

python - 使用 bokeh 或 matplotlib 的 Pandas DataFrame 分层饼图/ donut chart

我有以下pandasDataFrame(“A”是最后一列的标题；其余列是组合的层次索引):AkingdomphylumclassorderfamilygenusspeciesNoblasthit2496k__Archaeap__Euryarchaeotac__Thermoplasmatao__E2f__[Methanomassiliicoccaceae]g__vadinCA11s__6k__Bacteriap__c__o__f__g__s__5p__Actinobacteriac__Acidimicrobiiao__Acidimicrobialesf__g__s__0c__Actino

matplotlib DataFrame 39 section values python pandas bokeh

python - pyspark 使用 partitionby 对数据进行分区

我了解partitionBy函数对我的数据进行分区。如果我使用rdd.partitionBy(100)，它会将我的数据按键分成100个部分。即与相似键关联的数据将被分组在一起我的理解正确吗？分区数等于分区数是否可取可用内核？这会使处理更有效率吗？如果我的数据不是键值格式怎么办。我还能使用这个功能吗？假设我的数据是serial_number_of_student,student_name。在这个情况下我可以按student_name而不是序列号？最佳答案不完全是。Spark，包括PySpark，isbydefaultusingha

partitionby pyspark code noreferrer noopener python apache-spark partitioning rdd

python - 如何在 Pyspark 中使用滑动窗口对时间序列数据进行数据转换

我正在尝试根据时间序列数据的滑动窗口提取特征。在Scala中，似乎有一个基于thispost的sliding函数。和thedocumentationimportorg.apache.spark.mllib.rdd.RDDFunctions._sc.parallelize(1to100,10).sliding(3).map(curSlice=>(curSlice.sum/curSlice.size)).collect()我的问题是PySpark中有类似的功能吗？或者如果没有这样的功能，我们如何实现类似的滑动窗口转换？最佳答案据我所

何在 Pyspark code sliding section python apache-spark time-series

python - 在 Python 中从 Spark DataFrame 创建 labeledPoints

我使用python中的什么.map()函数从spark数据帧创建一组labeledPoints？如果标签/结果不是第一列，但我可以引用其列名“状态”，那么符号是什么？我使用这个.map()函数创建Python数据框:defparsePoint(line):listmp=list(line.split('\t'))dataframe=pd.DataFrame(pd.get_dummies(listmp[1:]).sum()).transpose()dataframe.insert(0,'status',dataframe['accepted'])if'NULL'indataframe.c

labeledPoints DataFrame code section python pandas apache-spark apache-spark-mllib apache-spark-ml

python - 如何从 ASCII 文件写入/读取带有 MultiIndex 的 Pandas DataFrame？

我希望能够为行和列索引创建一个带有MultiIndexes的PandasDataFrame，并从ASCII文本文件中读取它。我的数据如下:col_indx=MultiIndex.from_tuples([('A','B','C'),('A','B','C2'),('A','B','C3'),('A','B2','C'),('A','B2','C2'),('A','B2','C3'),('A','B3','C'),('A','B3','C2'),('A','B3','C3'),('A2','B','C'),('A2','B','C2'),('A2','B','C3'),('A2','B2

MultiIndex DataFrame 39 code python pandas

python - 在 DataFrame 对象上使用 rolling_apply

我正在尝试滚动计算成交量加权平均价格。为此，我有一个函数vwap可以为我执行此操作，如下所示:defvwap(bars):return((bars.Close*bars.Volume).sum()/bars.Volume.sum()).round(2)当我尝试将此函数与rolling_apply一起使用时，如图所示，出现错误:importpandas.io.dataaswebbars=web.DataReader('AAPL','yahoo')printpandas.rolling_apply(bars,30,vwap)AttributeError:'numpy.ndarray'obj

rolling_apply DataFrame 2010 2013 section python pandas

python - PySpark:在日期为字符串的范围内按日期字段过滤 DataFrame

我的数据框包含一个日期字段，它以字符串格式出现，例如'2015-07-02T11:22:21.050Z'我需要根据日期过滤DataFrame以仅获取上周的记录。所以，我尝试了一种映射方法，我使用strptime将字符串日期转换为日期时间对象:defmap_to_datetime(row):format_string='%Y-%m-%dT%H:%M:%S.%fZ'row.date=datetime.strptime(row.date,format_string)df=df.map(map_to_datetime)然后我会应用一个过滤器作为df.filter(lambdarow:row.d

DataFrame PySpark section code datetime python date

python - 将逗号分隔的字符串转换为 pyspark 数据框中的数组

我有一个如下所示的数据框，其中ev是字符串类型。>>>df2.show()+---+--------------+|id|ev|+---+--------------+|1|200,201,202||1|23,24,34,45||1|null||2|32||2|null|+---+--------------+有没有办法在不使用UDF的情况下将ev转换为类型ArrayType，或者UDF是唯一的选择？最佳答案您可以使用内置的split函数:frompyspark.sql.functionsimportcol,splitdf=sc

pyspark python 34 section code apache-spark dataframe apache-spark-sql