草庐IT

groupbys

全部标签

python - 带有 bin 计数的 Pandas groupby

我有一个如下所示的DataFrame:+----------+---------+-------+|username|post_id|views|+----------+---------+-------+|john|1|3||john|2|23||john|3|44||john|4|82||jane|7|5||jane|8|25||jane|9|46||jane|10|56|+----------+---------+-------+我想将其转换为对属于某些bin的View进行计数,如下所示:+------+------+-------+-------+--------+||1-10

python - pandas groupby中的最大和最小日期

我有一个看起来像这样的数据框:data={'index':['2014-06-2210:46:00','2014-06-2419:52:00','2014-06-2517:02:00','2014-06-2517:55:00','2014-07-0211:36:00','2014-07-0612:40:00','2014-07-0512:46:00','2014-07-2715:12:00'],'type':['A','B','C','A','B','C','A','C'],'sum_col':[1,2,3,1,1,3,2,1]}df=pd.DataFrame(data,columns

python - pandas groupby中的最大和最小日期

我有一个看起来像这样的数据框:data={'index':['2014-06-2210:46:00','2014-06-2419:52:00','2014-06-2517:02:00','2014-06-2517:55:00','2014-07-0211:36:00','2014-07-0612:40:00','2014-07-0512:46:00','2014-07-2715:12:00'],'type':['A','B','C','A','B','C','A','C'],'sum_col':[1,2,3,1,1,3,2,1]}df=pd.DataFrame(data,columns

python - 使用 itertools.groupby 性能进行 NumPy 分组

我有许多包含重复项的大型(>35,000,000)整数列表。我需要对列表中的每个整数进行计数。以下代码有效,但似乎很慢。其他人可以使用Python和NumPy来改进基准测试吗?defgroup():importnumpyasnpfromitertoolsimportgroupbyvalues=np.array(np.random.randint(0,1返回:$pythonbench.py111.377498865根据回复:defgroup_original():importnumpyasnpfromitertoolsimportgroupbyvalues=np.array(np.ran

python - 使用 itertools.groupby 性能进行 NumPy 分组

我有许多包含重复项的大型(>35,000,000)整数列表。我需要对列表中的每个整数进行计数。以下代码有效,但似乎很慢。其他人可以使用Python和NumPy来改进基准测试吗?defgroup():importnumpyasnpfromitertoolsimportgroupbyvalues=np.array(np.random.randint(0,1返回:$pythonbench.py111.377498865根据回复:defgroup_original():importnumpyasnpfromitertoolsimportgroupbyvalues=np.array(np.ran

python - Pandas - GroupBy 然后在原始表上合并

我正在尝试编写一个函数来聚合并在Pandas中的数据帧上执行各种统计计算,然后将其合并到原始数据帧,但是,我遇到了问题。这是SQL中的等效代码:SELECTEID,PCODE,SUM(PVALUE)ASPVALUE,SUM(SQRT(SC*EXP(SC-1)))ASSC,SUM(SI)ASSI,SUM(EE)ASEEINTOfoo_bar_grpFROMfoo_barGROUPBYEID,PCODE然后加入原表:SELECT*FROMfoo_bar_grpINNERJOINfoo_barONfoo_bar.EID=foo_bar_grp.EIDANDfoo_bar.PCODE=foo_

python - Pandas - GroupBy 然后在原始表上合并

我正在尝试编写一个函数来聚合并在Pandas中的数据帧上执行各种统计计算,然后将其合并到原始数据帧,但是,我遇到了问题。这是SQL中的等效代码:SELECTEID,PCODE,SUM(PVALUE)ASPVALUE,SUM(SQRT(SC*EXP(SC-1)))ASSC,SUM(SI)ASSI,SUM(EE)ASEEINTOfoo_bar_grpFROMfoo_barGROUPBYEID,PCODE然后加入原表:SELECT*FROMfoo_bar_grpINNERJOINfoo_barONfoo_bar.EID=foo_bar_grp.EIDANDfoo_bar.PCODE=foo_

python - Pandas groupby.size vs series.value_counts vs collections.Counter与多个系列

有很多问题(1、2、3)涉及单个系列中的计数值。但是,关于计数两个或多个系列的组合的最佳方法的问题较少。提出了解决方案(1,2),但没有讨论何时以及为什么应该使用它们。以下是对三种潜在方法的一些基准测试。我有两个具体问题:为什么grouper比count更高效?我希望count效率更高,因为它是在C中实现的。即使列数从2增加到4,grouper的卓越性能仍然存在。为什么value_counter比grouper差这么多?这是由于构建列表或从列表中构建系列的成本吗?我知道输出是不同的,这也应该通知选择。例如,使用连续的numpy数组与字典推导相比,按计数过滤更有效:x,z=grouper

python - Pandas groupby.size vs series.value_counts vs collections.Counter与多个系列

有很多问题(1、2、3)涉及单个系列中的计数值。但是,关于计数两个或多个系列的组合的最佳方法的问题较少。提出了解决方案(1,2),但没有讨论何时以及为什么应该使用它们。以下是对三种潜在方法的一些基准测试。我有两个具体问题:为什么grouper比count更高效?我希望count效率更高,因为它是在C中实现的。即使列数从2增加到4,grouper的卓越性能仍然存在。为什么value_counter比grouper差这么多?这是由于构建列表或从列表中构建系列的成本吗?我知道输出是不同的,这也应该通知选择。例如,使用连续的numpy数组与字典推导相比,按计数过滤更有效:x,z=grouper

Python Pandas : how to add a totally new column to a data frame inside of a groupby/transform operation

我想在我的数据中标记一些分位数,对于DataFrame的每一行,我希望在一个名为例如的新列中的条目"xtile"来保存这个值。例如,假设我创建一个这样的数据框:importpandas,numpyasnpdfrm=pandas.DataFrame({'A':np.random.rand(100),'B':(50+np.random.randn(100)),'C':np.random.randint(low=0,high=3,size=(100,))})假设我编写了自己的函数来计算数组中每个元素的五分位数。我对此有自己的功能,但例如只需引用scipy.stats.mstats.mquan