草庐IT

reduceGroup

全部标签

scala - flink reduceGroup 中的迭代器行为

我正在创建一个应该处理大量数据的系统,我需要了解reduce组运算符的工作原理我有一个数据集,我在其中应用了groupby,随后应用了reduceGroup传递给reduceGroup函数的迭代器如何运行?它是在请求数据时加载数据的惰性迭代器,还是在创建数据时在内存中准备所有数据的急切迭代器?我在flink0.9milestone1中使用scalaapi 最佳答案 Flink使用排序运算符对groupReduce进行分组。排序运算符接收一定的内存预算用于排序。只要数据符合此预算,排序就会在内存中进行。否则,排序将成为外部合并排序并溢