Я не могу понять, как spark определяет количество разделов при чтении из AWS S3
Мой случай:
Я использую Spark 1.3 (извините, но не в моей руке)
My S3 содержит 100 файлов CSV каждый размером ~ 60-75 МБ в пакетах, т.е. папка 1, folder2, folder3 и т. д. содержит 100 файлов CSV каждый
Я получаю разделов 295-300 при чтении из этих папок
Я ожидаю, что разделы по умолчанию всегда будут равны 200, потому что если spark понимает данные S3 как основанные на блокахсистема должна показывать 64 МБ или 128 МБ.
Заранее спасибо.