考虑一个基于两个步骤的MPI应用程序,我们称之为load和globalReduce。只是为了简单起见,软件是这样描述的,但还有很多事情要做,所以它不仅仅是一个Map/Reduce问题。在load步骤期间,每个给定节点中的所有rank都排入队列,因此只有一个rank可以完全访问节点的all内存。之所以会这样设计,是因为在加载阶段,有一组大的IOblock被读取,都需要在之前在内存中加载一个localreduction可以发生。我们将把这个局部缩减的结果称为命名变量myRankVector。一旦获得myRankVector变量,IOblock就会被释放。变量myRankVector本身占用