数成_草庐IT

我有一个包含大约10,000,000行的大型pandas数据框。每一个代表一个特征向量。特征向量以自然组的形式出现，组标签位于名为group_id的列中.我想随机抽样10%说行，但与每个行的数量成比例group_id.例如，如果group_id's是A,B,A,C,A,B那么我希望一半的采样行具有group_idA，六分之二有group_idB和六分之一有group_idC.我可以看到pandas函数sample但我不确定如何使用它来实现这个目标。最佳答案你可以使用groupby和samplesample_df=df.group