Я новичок в pyspark. Я пытаюсь обработать 10 ГБ сжатых данных. Папка содержит несколько файлов GZIP, и каждый файл GZIP будет иметь размер около 500 МБ. Данные хранятся в корзине s3. Я хочу понять правильную настройку конфигурации для обработки этих огромных данных. Я пробовал множество экземпляров в AWS, но проблема в том, что считывание входных данных становится очень меньше через несколько минут. Первоначально около 280 МБ данных было прочитано за 2 минуты, но позже, даже через 30 минут, были обработаны только дополнительные 20 МБ данных. Я пытаюсь понять, в чем может быть проблема. Любые мысли по этому поводу будут действительно полезны. Спасибо!
Пробовал на 7-узловом кластере m4xlarge (8 ядер, 16 ГБ памяти, хранилище EBS: 32 ГиБ) с параллелизмом искры по умолчанию и разделами свечного перемешивания, установленными на 8.
Всего исполнителей: 4
Всего активных задач: 16
Максимальный размер ввода / записи: 16 МБ
Минимальный размер ввода / записи: 168,5 КБ
Ожидал, что обработает все 10 ГБ менее чем за полчаса, но только 300 МБ данных за 30 минут. В чем могла быть проблема?