sample_dataframe

python - 将 StringIndexer 应用于 PySpark Dataframe 中的多个列

我有一个PySpark数据框+-------+--------------+----+----+|address|date|name|food|+-------+--------------+----+----+|1111111|20151122045510|Yin|gre||1111111|20151122045501|Yin|gre||1111111|20151122045500|Yln|gra||1111112|20151122065832|Yun|ddd||1111113|20160101003221|Yan|fdf||1111111|20160703045231|Yin|gr

python - ValueError : Length of values does not match length of index | Pandas DataFrame. 唯一()

我正在尝试获取新数据集，或将当前数据集列的值更改为其唯一值。这是我想要得到的一个例子:AB-----0|111|252|153|794|795|89WantedResultNotWantedResultABAB----------0|110|111|251|252|792|3|83|794|5|8我并不真正关心索引，但这似乎是问题所在。到目前为止，我的代码非常简单，我尝试了2种方法，一种使用新的dataFrame，一种没有。#WithNewDataFramedefUniqueResults(dataframe):df=pd.DataFrame()forcolindataframe:S=

ValueError DataFrame code section python pandas

python - ValueError : Length of values does not match length of index | Pandas DataFrame. 唯一()

我正在尝试获取新数据集，或将当前数据集列的值更改为其唯一值。这是我想要得到的一个例子:AB-----0|111|252|153|794|795|89WantedResultNotWantedResultABAB----------0|110|111|251|252|792|3|83|794|5|8我并不真正关心索引，但这似乎是问题所在。到目前为止，我的代码非常简单，我尝试了2种方法，一种使用新的dataFrame，一种没有。#WithNewDataFramedefUniqueResults(dataframe):df=pd.DataFrame()forcolindataframe:S=

ValueError DataFrame code section python pandas

python - 使用 matplotlib 中的 dataframe.plot() 函数编辑条的宽度

我正在使用以下方法制作堆积条形图:DataFrame.plot(kind='bar',stacked=True)我想控制条形的宽度，使条形像直方图一样相互连接。我查看了文档但无济于事-有什么建议吗？这样可以吗？最佳答案对于遇到此问题的任何人:从pandas0.14开始，用条形图绘制有一个“宽度”命令:https://github.com/pydata/pandas/pull/6644上面的例子现在可以简单地通过使用来解决df.plot(kind='bar',stacked=True,width=1)见pandas.DataFra

matplotlib dataframe 条形 code pandas python histogram bar-chart

python - 使用 matplotlib 中的 dataframe.plot() 函数编辑条的宽度

我正在使用以下方法制作堆积条形图:DataFrame.plot(kind='bar',stacked=True)我想控制条形的宽度，使条形像直方图一样相互连接。我查看了文档但无济于事-有什么建议吗？这样可以吗？最佳答案对于遇到此问题的任何人:从pandas0.14开始，用条形图绘制有一个“宽度”命令:https://github.com/pydata/pandas/pull/6644上面的例子现在可以简单地通过使用来解决df.plot(kind='bar',stacked=True,width=1)见pandas.DataFra

matplotlib dataframe 条形 code pandas python histogram bar-chart

python - 在 DataFrame 中将 Pandas 系列转换为 DateTime

我有一个如下所示的PandasDataFrameReviewIDIDTypeTimeReviewed2057603293051936827ReportID2015-01-1500:05:27.5130002327603293051936854ReportID2015-01-1500:06:46.7030002337603293051936855ReportID2015-01-1500:06:56.7070004137603293051937035ReportID2015-01-1500:14:24.9570005657603293051937188ReportID2015-01-150

DataFrame DateTime 76032930 TimeReviewed 2015 python pandas

python - 在 DataFrame 中将 Pandas 系列转换为 DateTime

我有一个如下所示的PandasDataFrameReviewIDIDTypeTimeReviewed2057603293051936827ReportID2015-01-1500:05:27.5130002327603293051936854ReportID2015-01-1500:06:46.7030002337603293051936855ReportID2015-01-1500:06:56.7070004137603293051937035ReportID2015-01-1500:14:24.9570005657603293051937188ReportID2015-01-150

DataFrame DateTime 76032930 TimeReviewed 2015 python pandas

python - 如何将 pandas DataFrame 的列转换为列表列表？

我有一个包含多列的pandasDataFrame。2u2s4r4n4m7h7v011000101010011001010100011010100100110001我想要做的是将这个pandas.DataFrame进入如下列表X=[[0,0,1,1,1,0],[1,1,0,0,0,1],[1,0,0,0,1,1],[0,1,1,0,0,0],[0,0,0,1,0,0],[0,0,1,1,1,0],[1,1,0,0,0,1]]2u2s4r4n4m7h7v是列标题。在不同的情况下会发生变化，所以不要在意。最佳答案它看起来像一个转置矩阵

DataFrame python code section pre pandas

python - 如何将 pandas DataFrame 的列转换为列表列表？

我有一个包含多列的pandasDataFrame。2u2s4r4n4m7h7v011000101010011001010100011010100100110001我想要做的是将这个pandas.DataFrame进入如下列表X=[[0,0,1,1,1,0],[1,1,0,0,0,1],[1,0,0,0,1,1],[0,1,1,0,0,0],[0,0,0,1,0,0],[0,0,1,1,1,0],[1,1,0,0,0,1]]2u2s4r4n4m7h7v是列标题。在不同的情况下会发生变化，所以不要在意。最佳答案它看起来像一个转置矩阵

DataFrame python code section pre pandas

python - DataFrame中列之间的相关性

我对pandas很陌生，所以我想我做错了什么-我有一个数据框:ab00.50.7510.50.7520.50.7530.50.7540.50.75df.corr()给我:abaNaNNaNbNaNNaN但是np.correlate(df["a"],df["b"])给出:1.875这是为什么呢？我想为我的DataFrame获得相关矩阵，并认为corr()可以做到这一点(至少根据文档)。为什么返回NaN？正确的计算方法是什么？非常感谢! 最佳答案 np.correlate计算(未标准化)cross-correlation两个一维序列之间

DataFrame python code noreferrer section pandas