PATQUET_草庐IT

我们在几个CSV文件中有1.5亿张记录。我们需要对几列进行分组，以生成一个count总计的。我们当前的策略是：将它们加载到数据框中（使用Dask或者pyspark)聚集列以生成2列作为键：值：（我们不确定这是否值得）将文件另存为Parquet阅读Parquet文件（Dask或者pyspark）并在数据框架的索引上运行一个组。对于一个有效的小组组的最佳实践是什么Parquet文件？在索引上执行组比在列（或一组列）上执行组比有多有益？我们知道有一个partition这可以帮助-但是在我们的情况下，我们需要将整个数据集分组-因此我们认为这是不相关的。看答案如果您正在与已知聚合这样的集体组合进行类似c