草庐IT

dataframe

全部标签

python - 检查 DataFrame 中的哪些列是分类的

我是Pandas的新手...当我不手动指定时,我想要一种简单而通用的方法来查找我的DataFrame中哪些列是categorical每个列类型,不像thisSOquestion.df使用以下命令创建:importpandasaspddf=pd.read_csv("test.csv",header=None)例如0123401.5392400.423437-0.687014ChicagoSafari10.8153360.9136231.800160BostonSafari20.821214-0.8248390.483724NewYorkSafari.更新(2018/02/04)问题假设数

python - pandas 中的简单交叉表

我偶然发现了pandas它看起来非常适合我想做的简单计算。我有SAS背景,并认为它会取代procfreq-看起来它会扩展到我将来可能想做的事情。但是,我似乎无法完成一项简单的任务(我不确定我是否应该查看pivot/crosstab/indexing-我是否应该有一个Panel或DataFrames等...)。有人可以给我一些关于如何执行以下操作的指示:我有两个CSV文件(一个用于2010年,一个用于2011年-简单的交易数据)-列是类别和金额2010年:AB,100.00AB,200.00AC,150.00AD,500.002011:AB,500.00AC,250.00AX,900.0

python - pandas 中的简单交叉表

我偶然发现了pandas它看起来非常适合我想做的简单计算。我有SAS背景,并认为它会取代procfreq-看起来它会扩展到我将来可能想做的事情。但是,我似乎无法完成一项简单的任务(我不确定我是否应该查看pivot/crosstab/indexing-我是否应该有一个Panel或DataFrames等...)。有人可以给我一些关于如何执行以下操作的指示:我有两个CSV文件(一个用于2010年,一个用于2011年-简单的交易数据)-列是类别和金额2010年:AB,100.00AB,200.00AC,150.00AD,500.002011:AB,500.00AC,250.00AX,900.0

python - 将 CSV 加载到 Pandas MultiIndex DataFrame

我有一个719mb的CSV文件,看起来像:from,to,dep,freq,arr,code,mode(headerrow)RGBOXFD,RGBPADTON,127,0,27,99999,2RGBOXFD,RGBPADTON,127,0,33,99999,2RGBOXFD,RGBRDLEY,127,0,1425,99999,2RGBOXFD,RGBCHOLSEY,127,0,52,99999,2RGBOXFD,RGBMDNHEAD,127,0,91,99999,2RGBDIDCOTP,RGBPADTON,127,0,46,99999,2RGBDIDCOTP,RGBPADTON,127

python - 将 CSV 加载到 Pandas MultiIndex DataFrame

我有一个719mb的CSV文件,看起来像:from,to,dep,freq,arr,code,mode(headerrow)RGBOXFD,RGBPADTON,127,0,27,99999,2RGBOXFD,RGBPADTON,127,0,33,99999,2RGBOXFD,RGBRDLEY,127,0,1425,99999,2RGBOXFD,RGBCHOLSEY,127,0,52,99999,2RGBOXFD,RGBMDNHEAD,127,0,91,99999,2RGBDIDCOTP,RGBPADTON,127,0,46,99999,2RGBDIDCOTP,RGBPADTON,127

python - 按绝对值排序而不更改数据

我正在寻找一种简单的方法来按特定列的绝对值对pandas数据帧进行排序,但实际上不会更改数据帧中的值。类似于sorted(df,key=abs)的东西。所以如果我有一个像这样的数据框:ab01-312523-134245-9在“b”上排序时得到的排序数据如下所示:ab23-134201-312545-9 最佳答案 更新自从0.17.0order和sort已被弃用(感谢@RuggeroTurra),您现在可以使用sort_values来实现:In[16]:df.reindex(df.b.abs().sort_values().inde

python - 按绝对值排序而不更改数据

我正在寻找一种简单的方法来按特定列的绝对值对pandas数据帧进行排序,但实际上不会更改数据帧中的值。类似于sorted(df,key=abs)的东西。所以如果我有一个像这样的数据框:ab01-312523-134245-9在“b”上排序时得到的排序数据如下所示:ab23-134201-312545-9 最佳答案 更新自从0.17.0order和sort已被弃用(感谢@RuggeroTurra),您现在可以使用sort_values来实现:In[16]:df.reindex(df.b.abs().sort_values().inde

Python - 根据列值将数据框拆分为多个数据框并用这些值命名它们

这个问题在这里已经有了答案:Splittingdataframeintomultipledataframes(13个回答)关闭6年前。我有一个大型数据集,列出了在全国不同地区销售的竞争对手产品。我希望通过使用这些新数据帧名称中的列值的迭代过程,根据区域将该数据帧拆分为其他几个数据帧,以便我可以单独处理每个数据帧-例如按价格对每个地区的信息进行分类,以了解每个地区的市场情况。我给出了以下数据的简化版本:CompetitorRegionProductAProductBComp1A£10£15Comp1B£11£16Comp1C£11£15Comp2A£9£16Comp2B£12£14Com

Python - 根据列值将数据框拆分为多个数据框并用这些值命名它们

这个问题在这里已经有了答案:Splittingdataframeintomultipledataframes(13个回答)关闭6年前。我有一个大型数据集,列出了在全国不同地区销售的竞争对手产品。我希望通过使用这些新数据帧名称中的列值的迭代过程,根据区域将该数据帧拆分为其他几个数据帧,以便我可以单独处理每个数据帧-例如按价格对每个地区的信息进行分类,以了解每个地区的市场情况。我给出了以下数据的简化版本:CompetitorRegionProductAProductBComp1A£10£15Comp1B£11£16Comp1C£11£15Comp2A£9£16Comp2B£12£14Com

python - 总结每天 Pandas 的出现次数

我在pandas数据框中有这样的数据集:scoretimestamp2013-06-2900:52:28+00:00-0.4200702013-06-2900:51:53+00:00-0.4457202013-06-2816:40:43+00:000.5081612013-06-2815:10:30+00:000.9214742013-06-2815:10:17+00:000.876710我需要计算发生的测量次数,所以我正在寻找这样的东西:counttimestamp2013-06-2922013-06-283我不关心情绪列,我想要每天出现的次数。 最佳答案