我们在几个CSV文件中有1.5亿张记录。我们需要对几列进行分组,以生成一个count总计的。我们当前的策略是:将它们加载到数据框中(使用Dask或者pyspark)聚集列以生成2列作为键:值:(我们不确定这是否值得)将文件另存为Parquet阅读Parquet文件(Dask或者pyspark)并在数据框架的索引上运行一个组。对于一个有效的小组组的最佳实践是什么Parquet文件?在索引上执行组比在列(或一组列)上执行组比有多有益?我们知道有一个partition这可以帮助-但是在我们的情况下,我们需要将整个数据集分组-因此我们认为这是不相关的。看答案如果您正在与已知聚合这样的集体组合进行类似c