我不熟悉使用Startcluster/qsub/gridengine来运行并行作业,我尝试阅读其他几篇与此相关的文章。我仍然不确定如何为我的特定要求构建可扩展的解决方案。在继续进行相同的操作之前,我想听取更多建议。这是我的要求:我有一个巨大的tar文件[~40-50GB,最大可达100GB]----->我在这里无能为力。我接受了一个巨大的单个tar文件作为输入。我必须解压缩它----->我运行tarxvftarfilename.tar|parallelpbzip-d解压和解压缩相同的。这个解压缩的输出是几十万个文件,大约500,000个文件。必须处理这些未压缩的文件。我有模块化代码,可