Spark RDD разделы при чтении CSV из AWS S3 - PullRequest
0 голосов
/ 19 февраля 2019

Я не могу понять, как spark определяет количество разделов при чтении из AWS S3

Мой случай:

Я использую Spark 1.3 (извините, но не в моей руке)

My S3 содержит 100 файлов CSV каждый размером ~ 60-75 МБ в пакетах, т.е. папка 1, folder2, folder3 и т. д. содержит 100 файлов CSV каждый

Я получаю разделов 295-300 при чтении из этих папок

Я ожидаю, что разделы по умолчанию всегда будут равны 200, потому что если spark понимает данные S3 как основанные на блокахсистема должна показывать 64 МБ или 128 МБ.

Заранее спасибо.

...