草庐IT

sample_dataframe

全部标签

python - 将 StringIndexer 应用于 PySpark Dataframe 中的多个列

我有一个PySpark数据框+-------+--------------+----+----+|address|date|name|food|+-------+--------------+----+----+|1111111|20151122045510|Yin|gre||1111111|20151122045501|Yin|gre||1111111|20151122045500|Yln|gra||1111112|20151122065832|Yun|ddd||1111113|20160101003221|Yan|fdf||1111111|20160703045231|Yin|gr

python - ValueError : Length of values does not match length of index | Pandas DataFrame. 唯一()

我正在尝试获取新数据集,或将当前数据集列的值更改为其唯一值。这是我想要得到的一个例子:AB-----0|111|252|153|794|795|89WantedResultNotWantedResultABAB----------0|110|111|251|252|792|3|83|794|5|8我并不真正关心索引,但这似乎是问题所在。到目前为止,我的代码非常简单,我尝试了2种方法,一种使用新的dataFrame,一种没有。#WithNewDataFramedefUniqueResults(dataframe):df=pd.DataFrame()forcolindataframe:S=

python - ValueError : Length of values does not match length of index | Pandas DataFrame. 唯一()

我正在尝试获取新数据集,或将当前数据集列的值更改为其唯一值。这是我想要得到的一个例子:AB-----0|111|252|153|794|795|89WantedResultNotWantedResultABAB----------0|110|111|251|252|792|3|83|794|5|8我并不真正关心索引,但这似乎是问题所在。到目前为止,我的代码非常简单,我尝试了2种方法,一种使用新的dataFrame,一种没有。#WithNewDataFramedefUniqueResults(dataframe):df=pd.DataFrame()forcolindataframe:S=

python - 使用 matplotlib 中的 dataframe.plot() 函数编辑条的宽度

我正在使用以下方法制作堆积条形图:DataFrame.plot(kind='bar',stacked=True)我想控制条形的宽度,使条形像直方图一样相互连接。我查看了文档但无济于事-有什么建议吗?这样可以吗? 最佳答案 对于遇到此问题的任何人:从pandas0.14开始,用条形图绘制有一个“宽度”命令:https://github.com/pydata/pandas/pull/6644上面的例子现在可以简单地通过使用来解决df.plot(kind='bar',stacked=True,width=1)见pandas.DataFra

python - 使用 matplotlib 中的 dataframe.plot() 函数编辑条的宽度

我正在使用以下方法制作堆积条形图:DataFrame.plot(kind='bar',stacked=True)我想控制条形的宽度,使条形像直方图一样相互连接。我查看了文档但无济于事-有什么建议吗?这样可以吗? 最佳答案 对于遇到此问题的任何人:从pandas0.14开始,用条形图绘制有一个“宽度”命令:https://github.com/pydata/pandas/pull/6644上面的例子现在可以简单地通过使用来解决df.plot(kind='bar',stacked=True,width=1)见pandas.DataFra

python - 在 DataFrame 中将 Pandas 系列转换为 DateTime

我有一个如下所示的PandasDataFrameReviewIDIDTypeTimeReviewed2057603293051936827ReportID2015-01-1500:05:27.5130002327603293051936854ReportID2015-01-1500:06:46.7030002337603293051936855ReportID2015-01-1500:06:56.7070004137603293051937035ReportID2015-01-1500:14:24.9570005657603293051937188ReportID2015-01-150

python - 在 DataFrame 中将 Pandas 系列转换为 DateTime

我有一个如下所示的PandasDataFrameReviewIDIDTypeTimeReviewed2057603293051936827ReportID2015-01-1500:05:27.5130002327603293051936854ReportID2015-01-1500:06:46.7030002337603293051936855ReportID2015-01-1500:06:56.7070004137603293051937035ReportID2015-01-1500:14:24.9570005657603293051937188ReportID2015-01-150

python - 如何将 pandas DataFrame 的列转换为列表列表?

我有一个包含多列的pandasDataFrame。2u2s4r4n4m7h7v011000101010011001010100011010100100110001我想要做的是将这个pandas.DataFrame进入如下列表X=[[0,0,1,1,1,0],[1,1,0,0,0,1],[1,0,0,0,1,1],[0,1,1,0,0,0],[0,0,0,1,0,0],[0,0,1,1,1,0],[1,1,0,0,0,1]]2u2s4r4n4m7h7v是列标题。在不同的情况下会发生变化,所以不要在意。 最佳答案 它看起来像一个转置矩阵

python - 如何将 pandas DataFrame 的列转换为列表列表?

我有一个包含多列的pandasDataFrame。2u2s4r4n4m7h7v011000101010011001010100011010100100110001我想要做的是将这个pandas.DataFrame进入如下列表X=[[0,0,1,1,1,0],[1,1,0,0,0,1],[1,0,0,0,1,1],[0,1,1,0,0,0],[0,0,0,1,0,0],[0,0,1,1,1,0],[1,1,0,0,0,1]]2u2s4r4n4m7h7v是列标题。在不同的情况下会发生变化,所以不要在意。 最佳答案 它看起来像一个转置矩阵

python - DataFrame中列之间的相关性

我对pandas很陌生,所以我想我做错了什么-我有一个数据框:ab00.50.7510.50.7520.50.7530.50.7540.50.75df.corr()给我:abaNaNNaNbNaNNaN但是np.correlate(df["a"],df["b"])给出:1.875这是为什么呢?我想为我的DataFrame获得相关矩阵,并认为corr()可以做到这一点(至少根据文档)。为什么返回NaN?正确的计算方法是什么?非常感谢! 最佳答案 np.correlate计算(未标准化)cross-correlation两个一维序列之间