我有一个包含大约10,000,000行的大型pandas数据框。每一个代表一个特征向量。特征向量以自然组的形式出现,组标签位于名为group_id的列中.我想随机抽样10%说行,但与每个行的数量成比例group_id.例如,如果group_id's是A,B,A,C,A,B那么我希望一半的采样行具有group_idA,六分之二有group_idB和六分之一有group_idC.我可以看到pandas函数sample但我不确定如何使用它来实现这个目标。 最佳答案 你可以使用groupby和samplesample_df=df.group