我有一个程序需要重复计算数据集的近似百分位数(顺序统计),以便在进一步处理之前删除异常值。我目前正在通过对值数组进行排序并选择适当的元素来做到这一点;这是可行的,但它在配置文件中是一个明显的亮点,尽管它只是该程序的一个相当小的部分。更多信息:该数据集包含多达100000个float,并假定为“合理”分布-在特定值附近不太可能出现重复,也不会出现巨大的密度峰值;如果由于某种奇怪的原因分布是奇怪的,那么近似值不太准确是可以的,因为数据可能无论如何都搞砸了,进一步的处理也很可疑。但是,数据不一定是均匀分布或正态分布的;它不太可能退化。一个近似的解决方案很好,但我确实需要了解该近似如何引入错误