GroupBy1

Python Pandas 从 Groupby 中选择组的随机样本

获取groupby元素的随机样本的最佳方法是什么？据我了解，groupby只是一个可迭代的组。如果我想选择N=200元素，我会为可迭代对象执行此操作的标准方法是:rand=random.sample(data,N)如果你尝试上面的数据是“分组”的，结果列表的元素出于某种原因是元组。我找到了以下随机选择单个键groupby元素的示例，但这不适用于多键groupby。来自，Howtoaccesspandasgroupbydataframebykeycreategroupbyobjectgrouped=df.groupby('some_key')pickNdataframesandgrabt

中选 Groupby code some_key some python pandas random group-by

python - Pandas groupby 分位数值

我尝试从数据框中计算特定的分位数值，如下面的代码所示。分行计算没有问题。尝试运行最后两行时，出现以下错误:AttributeError:'SeriesGroupBy'objecthasnoattribute'quantile(0.25)'我该如何解决这个问题？importpandasaspddf=pd.DataFrame({'x':[0,1,0,1,0,1,0,1],'y':[7,6,5,4,3,2,1,0],'number':[25000,35000,45000,50000,60000,70000,65000,36000]})f={'number':['median','std','

groupby python 39 quantile section pandas

python - 用 groupby 方法替换值

我有一个DataFrame，其中有一列包含一些带有各种负值的错误数据。我想用它们所在的组的平均值替换值对于作为NA的缺失值，我会这样做:data=df.groupby(['GroupID']).columndata.transform(lambdax:x.fillna(x.mean()))但是如何在类似x的条件下执行此操作？谢谢! 最佳答案使用@AndyHayden的示例，您可以将groupby/transform与replace一起使用:df=pd.DataFrame([[1,1],[1,-1],[2,1],[2,2]],col

groupby python code section group pandas pandas-groupby

python - pandas dataframe groupby 并获得第 n 行

我有一个像下面这样的pandasDataFrame。df=pd.DataFrame([[1.1,1.1,1.1,2.6,2.5,3.4,2.6,2.6,3.4,3.4,2.6,1.1,1.1,3.3],list('AAABBBBABCBDDD'),[1.1,1.7,2.5,2.6,3.3,3.8,4.0,4.2,4.3,4.5,4.6,4.7,4.7,4.8],['x/y/z','x/y','x/y/z/n','x/u','x','x/u/v','x/y/z','x','x/u/v/b','-','x/y','x/y/z','x','x/u/v/w'],['1','3','3','2'

dataframe groupby 39 code col python pandas

python - 应用自定义 groupby 聚合函数在 pandas python 中输出二进制结果

我有一个交易者交易数据集，其中感兴趣的变量是Buy/Sell，它是二进制的，如果交易是买入，则值为1，如果是卖出，则值为0。示例如下所示:TraderBuy/SellA1A0B1B1B0C1C0C0我想计算每个交易者的净买入/卖出，如果交易者有超过50%的交易是买入，他将有一个买入/卖出为1，如果他的买入少于50%，那么他的Buy/Sell将为0，如果恰好为50%，他将有NA(并且在未来的计算中将被忽略).因此，对于交易者A，买入比例为(买入数量)/(交易者总数)=1/2=0.5，得出NA。对于交易者B，它是2/3=0.67，这给出了1对于交易员C，它是1/3=0.33，这给出了0

自定 python 39 code Sell pandas group-by aggregate-functions

python - 如何在 Pandas 中使用groupby根据另一列中的标准计算百分比/比例总数

我正在尝试研究如何使用pandas中的groupby函数根据给定的是/否标准计算每年的值比例。例如，我有一个名为names的数据框:NameNumberYearSexCriteria0name17891998MaleN1name16881999MaleN2name16392000MaleN3name25511998MaleY4name24991999MaleY我可以用namesgrouped=names.groupby(["Sex","Year","Criteria"]).sum()获得:NumberSexYearCriteriaMale1998N14507Y23081999N1411

标准计何在 code section pre python pandas dataframe group-by pivot

python - SQLAlchemy 中的 GroupBy 和 Sum？

我试图将表格中的几个字段分组，然后对这些组求和，但它们被重复计算了。我的模型如下:classCostCenter(db.Model):__tablename__='costcenter'id=db.Column(db.Integer,primary_key=True,autoincrement=True)name=db.Column(db.String)number=db.Column(db.Integer)classExpense(db.Model):__tablename__='expense'id=db.Column(db.Integer,primary_key=True,aut

SQLAlchemy GroupBy Expense date python sql flask flask-sqlalchemy

python - 在分层数据框上添加带有 groupby 的列

我有一个结构如下的数据框:FirstABSecondbarbazfoobarbazfooThirdcatdogcatdogcatdogcatdogcatdogcatdog03877475322621865787186039292297318410833606322624694764315048481所以有三个列级别。我想在第二层添加一个新列，其中对每个第三层执行计算，例如“new”=“foo”+“bar”。所以生成的数据框看起来像:FirstABSecondbarbazfoonewbarbazfoonewThirdcatdogcatdogcatdogcatdogcatdogcatdog

groupby python cat dog 39 group-by pandas

python - Python Pandas 中的 GroupBy 函数，如 SUM(col_1*col_2)、加权平均值等

是否可以在不使用的情况下直接计算两列的乘积(或例如总和)grouped.apply(lambdax:(x.a*x.b).sum()使用起来快很多(不到我机器上一半的时间)df['helper']=df.a*df.bgrouped=df.groupby(something)grouped['helper'].sum()df.drop('helper',axis=1)但我真的不喜欢必须这样做。例如，计算每组的加权平均值很有用。这里的lambda方法是grouped.apply(lambdax:(x.a*x.b).sum()/(df.b).sum())再一次比将helper除以b.sum()

col GroupBy section code sum python pandas

python - 如何通过 Pandas 中的多级索引执行 'groupby'

我有一个由(STK_ID,RPT_Date)索引的数据框“RPT”，包含每个季度的累计股票销售额:salesSTK_IDRPT_Date000876200603317986270002006063016561100002006093027197000002006123135736600002007033187841500020070630202466000020070930335263000020071231479177000060014120060331270912000200606306589810002006093010102700002006123115915000002007

amp groupby RPT STK_ID 600141 python pandas

27 28 293031 32 33