Конфигурация Pyspark для обработки нескольких файлов GZIP размером более 10 ГБ (размер отдельного файла ~ 500 МБ) - PullRequest
0 голосов
/ 15 мая 2019

Я новичок в pyspark. Я пытаюсь обработать 10 ГБ сжатых данных. Папка содержит несколько файлов GZIP, и каждый файл GZIP будет иметь размер около 500 МБ. Данные хранятся в корзине s3. Я хочу понять правильную настройку конфигурации для обработки этих огромных данных. Я пробовал множество экземпляров в AWS, но проблема в том, что считывание входных данных становится очень меньше через несколько минут. Первоначально около 280 МБ данных было прочитано за 2 минуты, но позже, даже через 30 минут, были обработаны только дополнительные 20 МБ данных. Я пытаюсь понять, в чем может быть проблема. Любые мысли по этому поводу будут действительно полезны. Спасибо!

Пробовал на 7-узловом кластере m4xlarge (8 ядер, 16 ГБ памяти, хранилище EBS: 32 ГиБ) с параллелизмом искры по умолчанию и разделами свечного перемешивания, установленными на 8.

Всего исполнителей: 4 Всего активных задач: 16 Максимальный размер ввода / записи: 16 МБ Минимальный размер ввода / записи: 168,5 КБ

Ожидал, что обработает все 10 ГБ менее чем за полчаса, но только 300 МБ данных за 30 минут. В чем могла быть проблема?

...