Question

Я не могу понять, как spark определяет количество разделов при чтении из AWS S3

Мой случай:

Я использую Spark 1.3 (извините, но не в моей руке)

My S3 содержит 100 файлов CSV каждый размером ~ 60-75 МБ в пакетах, т.е. папка 1, folder2, folder3 и т. д. содержит 100 файлов CSV каждый

Я получаю разделов 295-300 при чтении из этих папок

Я ожидаю, что разделы по умолчанию всегда будут равны 200, потому что если spark понимает данные S3 как основанные на блокахсистема должна показывать 64 МБ или 128 МБ.

Заранее спасибо.

Spark RDD разделы при чтении CSV из AWS S3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Spark RDD разделы при чтении CSV из AWS S3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы