pyspark-dataframes

python - 如何在非唯一列中按日期对 Pandas DataFrame 条目进行分组

PandasDataFrame包含名为"date"的列，其中包含非唯一的datetime值。我可以使用以下方法对该框架中的行进行分组:data.groupby(data['date'])但是，这会按datetime值拆分数据。我想按存储在“日期”列中的年份对这些数据进行分组。Thispage展示了在时间戳用作索引的情况下如何按年份分组，这在我的情况下不正确。如何实现这种分组？最佳答案我正在使用Pandas0.16.2。这在我的大型数据集上具有更好的性能:data.groupby(data.date.dt.year)使用dt选项并

非唯条目 code section python pandas

python - 如何在非唯一列中按日期对 Pandas DataFrame 条目进行分组

PandasDataFrame包含名为"date"的列，其中包含非唯一的datetime值。我可以使用以下方法对该框架中的行进行分组:data.groupby(data['date'])但是，这会按datetime值拆分数据。我想按存储在“日期”列中的年份对这些数据进行分组。Thispage展示了在时间戳用作索引的情况下如何按年份分组，这在我的情况下不正确。如何实现这种分组？最佳答案我正在使用Pandas0.16.2。这在我的大型数据集上具有更好的性能:data.groupby(data.date.dt.year)使用dt选项并

非唯条目 code section python pandas

python - 将 spark DataFrame 列转换为 python 列表

我处理具有两列mvv和count的数据框。+---+-----+|mvv|count|+---+-----+|1|5||2|9||3|3||4|1|我想获得两个包含mvv值和计数值的列表。类似的东西mvv=[1,2,3,4]count=[5,9,3,1]所以，我尝试了以下代码:第一行应该返回一个python行列表。我想查看第一个值:mvv_list=mvv_count_df.select('mvv').collect()firstvalue=mvv_list[0].getInt(0)但我收到第二行的错误消息:AttributeError:getInt 最佳答

python DataFrame code mvv count apache-spark pyspark spark-dataframe

python - 将 spark DataFrame 列转换为 python 列表

我处理具有两列mvv和count的数据框。+---+-----+|mvv|count|+---+-----+|1|5||2|9||3|3||4|1|我想获得两个包含mvv值和计数值的列表。类似的东西mvv=[1,2,3,4]count=[5,9,3,1]所以，我尝试了以下代码:第一行应该返回一个python行列表。我想查看第一个值:mvv_list=mvv_count_df.select('mvv').collect()firstvalue=mvv_list[0].getInt(0)但我收到第二行的错误消息:AttributeError:getInt 最佳答

python DataFrame code mvv count apache-spark pyspark spark-dataframe

python - 将所选列保留为 DataFrame 而不是 Series

当从pandasDataFrame中选择单列时(比如df.iloc[:,0]、df['A']或df.A等)，生成的向量会自动转换为Series而不是单列DataFrame。但是，我正在编写一些将DataFrame作为输入参数的函数。因此，我更喜欢处理单列DataFrame而不是Series，以便函数可以假设df.columns是可访问的。现在，我必须使用pd.DataFrame(df.iloc[:,0])之类的方法将Series显式转换为DataFrame。这似乎不是最干净的方法。有没有更优雅的方式直接从DataFrame中进行索引，以便结果是单列DataFrame而不是Series？

DataFrame python code section pandas

python - 将所选列保留为 DataFrame 而不是 Series

当从pandasDataFrame中选择单列时(比如df.iloc[:,0]、df['A']或df.A等)，生成的向量会自动转换为Series而不是单列DataFrame。但是，我正在编写一些将DataFrame作为输入参数的函数。因此，我更喜欢处理单列DataFrame而不是Series，以便函数可以假设df.columns是可访问的。现在，我必须使用pd.DataFrame(df.iloc[:,0])之类的方法将Series显式转换为DataFrame。这似乎不是最干净的方法。有没有更优雅的方式直接从DataFrame中进行索引，以便结果是单列DataFrame而不是Series？

DataFrame python code section pandas

python - 将元信息/元数据添加到 pandas DataFrame

是否可以向pandasDataFrame添加一些元信息/元数据？例如用于测量数据的仪器名称、负责的仪器等一种解决方法是使用该信息创建一个列，但在每一行中存储一条信息似乎很浪费! 最佳答案当然，像大多数Python对象一样，您可以将新属性附加到pandas.DataFrame:importpandasaspddf=pd.DataFrame([])df.instrument_name='Binky'但是请注意，虽然您可以将属性附加到DataFrame，但对DataFrame执行的操作(例如groupby、pivot、join或loc仅

DataFrame python code section pandas

python - 将元信息/元数据添加到 pandas DataFrame

是否可以向pandasDataFrame添加一些元信息/元数据？例如用于测量数据的仪器名称、负责的仪器等一种解决方法是使用该信息创建一个列，但在每一行中存储一条信息似乎很浪费! 最佳答案当然，像大多数Python对象一样，您可以将新属性附加到pandas.DataFrame:importpandasaspddf=pd.DataFrame([])df.instrument_name='Binky'但是请注意，虽然您可以将属性附加到DataFrame，但对DataFrame执行的操作(例如groupby、pivot、join或loc仅

DataFrame python code section pandas

python - 使用 None 值过滤 Pyspark 数据框列

我正在尝试过滤具有None作为行值的PySpark数据帧:df.select('dt_mvmt').distinct().collect()[Row(dt_mvmt=u'2016-03-27'),Row(dt_mvmt=u'2016-03-28'),Row(dt_mvmt=u'2016-03-29'),Row(dt_mvmt=None),Row(dt_mvmt=u'2016-03-30'),Row(dt_mvmt=u'2016-03-31')]我可以用字符串值正确过滤:df[df.dt_mvmt=='2016-03-31']#someresultshere但这失败了:df[df.dt_

Pyspark python code dt_mvmt NULL apache-spark dataframe apache-spark-sql

python - 使用 None 值过滤 Pyspark 数据框列

我正在尝试过滤具有None作为行值的PySpark数据帧:df.select('dt_mvmt').distinct().collect()[Row(dt_mvmt=u'2016-03-27'),Row(dt_mvmt=u'2016-03-28'),Row(dt_mvmt=u'2016-03-29'),Row(dt_mvmt=None),Row(dt_mvmt=u'2016-03-30'),Row(dt_mvmt=u'2016-03-31')]我可以用字符串值正确过滤:df[df.dt_mvmt=='2016-03-31']#someresultshere但这失败了:df[df.dt_

Pyspark python code dt_mvmt NULL apache-spark dataframe apache-spark-sql