HadoopPartitions

我正在阅读JacekLaskowski'sonlinebookaboutApacheSpark，关于分区，他说Bydefault,apartitioniscreatedforeachHDFSpartition,whichbydefaultis64MB我对HDFS不是很熟悉，但是我在复制这个声明时遇到了一些问题。我有一个名为Reviews.csv的文件，它是大约330MB的亚马逊食品评论文本文件。给定默认的64MBblock，我希望ceiling(330/64)=6分区。但是，当我将文件加载到我的SparkShell中时，我得到了9个分区:scala>valtokenized_logs=