groupbys_草庐IT

Python Pandas : how to add a totally new column to a data frame inside of a groupby/transform operation

我想在我的数据中标记一些分位数，对于DataFrame的每一行，我希望在一个名为例如的新列中的条目"xtile"来保存这个值。例如，假设我创建一个这样的数据框:importpandas,numpyasnpdfrm=pandas.DataFrame({'A':np.random.rand(100),'B':(50+np.random.randn(100)),'C':np.random.randint(low=0,high=3,size=(100,))})假设我编写了自己的函数来计算数组中每个元素的五分位数。我对此有自己的功能，但例如只需引用scipy.stats.mstats.mquan

python - 使用 groupby 后在 Pandas 中计算 np.diff 会导致意外结果

我有一个数据框，我正在尝试向它附加一列顺序差异。我找到了一种我非常喜欢的方法(并且可以很好地概括我的用例)。但一路上我注意到一件奇怪的事情。你能帮我理解一下吗？以下是一些具有正确结构的数据(以答案here为模型的代码):importpandasaspdimportnumpyasnpimportrandomfromitertoolsimportproductrandom.seed(1)#soyoucanplayalongathomenp.random.seed(2)#ditto#makealistofdatesforafewperiodsdates=pd.date_range(start

中计 groupby ticker code 2013 python pandas diff

python - 使用 groupby 后在 Pandas 中计算 np.diff 会导致意外结果

我有一个数据框，我正在尝试向它附加一列顺序差异。我找到了一种我非常喜欢的方法(并且可以很好地概括我的用例)。但一路上我注意到一件奇怪的事情。你能帮我理解一下吗？以下是一些具有正确结构的数据(以答案here为模型的代码):importpandasaspdimportnumpyasnpimportrandomfromitertoolsimportproductrandom.seed(1)#soyoucanplayalongathomenp.random.seed(2)#ditto#makealistofdatesforafewperiodsdates=pd.date_range(start

中计 groupby ticker code 2013 python pandas diff

python - 将功能应用于 Pandas groupby

我有一个pandas数据框，其中包含一个名为my_labels的列，其中包含以下字符串:'A'、'B'、'C'、'D'、'E'.我想计算每个字符串的出现次数，然后将计数除以所有计数的总和。我正在尝试在Pandas中这样做:func=lambdax:x.size()/x.sum()data=frame.groupby('my_labels').apply(func)此代码抛出错误，'DataFrameobjecthasnoattribute'size'。如何在Pandas中应用函数来计算？最佳答案 apply接受一个函数以应用于每个

groupby python code section pandas

python - 将功能应用于 Pandas groupby

我有一个pandas数据框，其中包含一个名为my_labels的列，其中包含以下字符串:'A'、'B'、'C'、'D'、'E'.我想计算每个字符串的出现次数，然后将计数除以所有计数的总和。我正在尝试在Pandas中这样做:func=lambdax:x.size()/x.sum()data=frame.groupby('my_labels').apply(func)此代码抛出错误，'DataFrameobjecthasnoattribute'size'。如何在Pandas中应用函数来计算？最佳答案 apply接受一个函数以应用于每个

groupby python code section pandas

python - 多个groupby后如何将pandas数据从索引移动到列

我有以下Pandas数据框:tokenyearusesbooks386xanthos183033387xanthos184011388xanthos184022389xanthos186822390xanthos187511我像这样聚合具有重复token和years的行:dfalph=dfalph[['token','year','uses','books']].groupby(['token','year']).agg([np.sum])dfalph.columns=dfalph.columns.droplevel(1)usesbookstokenyearxanthos1830331

groupby python xanthos code token pandas pandas-groupby multi-index

python - 多个groupby后如何将pandas数据从索引移动到列

我有以下Pandas数据框:tokenyearusesbooks386xanthos183033387xanthos184011388xanthos184022389xanthos186822390xanthos187511我像这样聚合具有重复token和years的行:dfalph=dfalph[['token','year','uses','books']].groupby(['token','year']).agg([np.sum])dfalph.columns=dfalph.columns.droplevel(1)usesbookstokenyearxanthos1830331

groupby python xanthos code token pandas pandas-groupby multi-index

Python pandas - 在 groupby 之后过滤行

例如，我有下表:index,A,B0,0,01,0,82,0,83,1,54,1,3按A分组后:0:index,A,B0,0,01,0,82,0,81:index,A,B3,1,54,1,3我需要的是从每个组中删除行，其中列B中的数字小于组列B中所有行的最大值。好吧，我在将这个问题翻译成英文时遇到了问题，所以这里是示例:0组中B列中行的最大值:8所以我想删除索引0的行并保留索引1和2的行1组中B列中行的最大值:5所以我想删除索引4的行并保留索引3的行我曾尝试使用pandas过滤功能，但问题是它一次对组中的所有行进行操作:data=grouped=data.groupby("A")fil

groupby Python code section strong pandas filter lambda group-by

Python pandas - 在 groupby 之后过滤行

例如，我有下表:index,A,B0,0,01,0,82,0,83,1,54,1,3按A分组后:0:index,A,B0,0,01,0,82,0,81:index,A,B3,1,54,1,3我需要的是从每个组中删除行，其中列B中的数字小于组列B中所有行的最大值。好吧，我在将这个问题翻译成英文时遇到了问题，所以这里是示例:0组中B列中行的最大值:8所以我想删除索引0的行并保留索引1和2的行1组中B列中行的最大值:5所以我想删除索引4的行并保留索引3的行我曾尝试使用pandas过滤功能，但问题是它一次对组中的所有行进行操作:data=grouped=data.groupby("A")fil

groupby Python code section strong pandas filter lambda group-by

Python - GroupBy 对象的滚动函数

我有一个时间序列对象grouped类型的.grouped.sum()给出了预期的结果，但我无法让rolling_sum与groupby一起使用目的。有什么方法可以将滚动功能应用于groupby对象？例如:x=range(0,6)id=['a','a','a','b','b','b']df=DataFrame(zip(id,x),columns=['id','x'])df.groupby('id').sum()idxa3b12但是，我想要类似的东西:idx0a01a12a33b34b75b12 最佳答案对于遇到这个老问题的Googl

GroupBy Python code 39 section pandas pandas-groupby rolling-computation rolling-sum