У меня есть каталог партера, содержащий 5 файлов, как показано ниже:
![enter image description here](https://i.stack.imgur.com/javcR.png)
Я использую версию Spark 2.2 и читаю этот каталог, используя следующий код:
![enter image description here](https://i.stack.imgur.com/Gf56i.png)
Мне не ясно, почему 7 разделов (alternateDF.rdd (). GetNumPartitions ()) определяются Spark, когда у нас есть 5 файлов (каждый меньше размера блока) в каталоге паркета? 5 задач имеют входные записи, но последние 2 задачи имеют 0 входных записей, но ненулевые входные данные. Не могли бы вы объяснить поведение каждой задачи?
![enter image description here](https://i.stack.imgur.com/TYBZc.png)