草庐IT

GroupBy1

全部标签

python - Pandas GroupBy 内存释放

问题我注意到在遍历Pandas时分配了内存GroupBy迭代后对象不会被释放。我使用resource.getrusage(resource.RUSAGE_SELF).ru_maxrss(secondanswerinthispostfordetails)来测量Python进程使用的事件内存总量。importresourceimportgcimportpandasaspdimportnumpyasnpi=np.random.choice(list(range(100)),4000)cols=list(range(int(2e4)))df=pd.DataFrame(1,index=i,col

python - groupby.value_counts() 之后的 pandas reset_index

我正在尝试按列分组并计算另一列的值计数。importpandasaspddftest=pd.DataFrame({'A':[1,1,1,1,1,1,1,1,1,2,2,2,2,2],'Amt':[20,20,20,30,30,30,30,40,40,10,10,40,40,40]})print(dftest)dftest看起来像AAmt012011202120313041305130613071408140921010210112401224013240进行分组grouper=dftest.groupby('A')df_grouped=grouper['Amt'].value_coun

使用 Groupby 的 Python Pandas 条件和

使用样本数据:df=pd.DataFrame({'key1':['a','a','b','b','a'],'key2':['one','two','one','two','one'],'data1':np.random.randn(5),'data2':np.random.randn(5)})dfdata1data2key1key200.3616010.375297aone10.0698890.809772atwo21.4681940.272929bone3-1.1384580.865060btwo4-0.2682101.250340aone我正在尝试弄清楚如何按key1对数据进行分组

Python pandas groupby 在多列上聚合,然后旋转

在Python中,我有一个类似于以下内容的pandasDataFrame:Item|shop1|shop2|shop3|Category------------------------------------Shoes|45|50|53|ClothesTV|200|300|250|TechnologyBook|20|17|21|Booksphone|300|350|400|Technology其中shop1、shop2和shop3是不同商店中每件商品的成本。现在,我需要在一些数据清理之后返回一个DataFrame,就像这样:Category(index)|size|sum|mean|s

python - groupby之后,如何展平列标题?

我试图在单个Id列上加入多个pandas数据帧,但是当我尝试合并时收到警告:KeyError:'Id'.我认为这可能是因为我的数据框有由groupby语句产生的偏移列,但我很可能是错的。无论哪种方式,我都无法弄清楚如何“取消堆叠”我的数据框列标题。thisquestion上没有答案似乎有效。我的groupby代码:step1=pd.DataFrame(step3.groupby(['Id','interestingtabsplittest2__grp'])['applications'].sum())step1.sort('applications',ascending=False).

python - GroupBy 结果到列表字典

我有一个看起来像这样的excel表:Column1Column2Column302311521231195256122223243145459154415125873我希望提取该数据,按第1列对其进行分组,然后将其添加到字典中,使其如下所示:{0:[1],1:[2,3,5],2:[1,2],3:[4,5],4:[1],5:[1,2,3]}这是我目前的代码excel=pandas.read_excel(r"e:\test_data.xlsx",sheetname='mySheet',parse_cols'A,C')myTable=excel.groupby("Column1").grou

python - pandas.groupby 的 group_keys 参数实际上是做什么的?

在pandas.DataFrame.groupby,有一个参数group_keys,我收集它应该做一些与如何将组键包含在数据帧子集中有关的事情。根据文档:group_keys:boolean,defaultTrueWhencallingapply,addgroupkeystoindextoidentifypieces但是,我真的找不到任何group_keys产生实际影响的示例:importpandasaspddf=pd.DataFrame([[0,1,3],[3,1,1],[3,0,0],[2,3,3],[2,1,0]],columns=list('xyz'))gby=df.group

python - 带有 pandas groupby multiindex 的箱线图,用于来自 multiindex 的指定子级别

好的,所以我有一个数据框,其中包含时间序列数据,每列都有一个多行索引。这是数据的样例,它是csv格式的。加载数据在这里不是问题。我想要做的是能够创建一个箱线图,其中包含根据多索引特定行中的不同类别分组的数据。例如,如果我要按“SPECIES”分组,我将在时间序列中的特定时间为每个组提供“aq”、“gr”、“mix”、“sed”和一个框。我试过了:grouped=data['2013-08-17'].groupby(axis=1,level='SPECIES')grouped.boxplot()但它给了我组中每个点的箱线图(平线),而不是分组集。是否有捷径可寻?我没有任何分组问题,因为我

python - Pandas Groupby 和 Sum Only 一列

所以我有一个数据框df1,如下所示:ABC1foo12California2foo22California3bar8RhodeIsland4bar32RhodeIsland5baz15Ohio6baz26Ohio我想按列A分组,然后对列B求和,同时保留列C中的值。像这样的:ABC1foo34California2bar40RhodeIsland3baz41Ohio问题是,当我说df.groupby('A').sum()列C被移除,返回BAbar40baz41foo34当我分组和求和时,如何解决这个问题并保留列C? 最佳答案 这样做的

python - 如何迭代从 groupby().size() 生成的 Pandas 系列

如何遍历.groupby('...').size()命令生成的Pandas系列并获取组名和组数。例如,如果我有:foo-1708511425我如何循环它们,以便在每次迭代中我都会在变量中包含-1&7、0&85、1&14和2&5?我尝试了enumerate选项,但效果不佳。示例:fori,rowinenumerate(df.groupby(['foo']).size()):print(i,row)i不返回-1、0、1和2,而是返回0、1、2、3。 最佳答案 更新:给定一个Pandas系列:s=pd.Series([1,2,3,4],i