PySpark на AWS Glue: код выхода контейнера 52 при записи вывода в csv - PullRequest
0 голосов
/ 22 января 2019

Я новичок в Spark / PySpark, и я пытаюсь использовать PySpark для автоматизации процесса ETL (на AWS) для производственной модели ML, для которой требуется серия шагов Bucketizer-OneHotEncoding-Vectorization перед сохранением вектора объектов вывод в CSV. Задание выполняется до тех пор, пока я не сохраню окончательно преобразованный кадр данных в корзину s3 (без объединения / сбора), прежде чем произойдет сбой с кодом выхода 52.

Я понимаю, что код выхода 52 является ошибкой OOM, поэтому я попытался изменить распределение памяти для каждого раздела, используя следующее:

sqlContext.setConf ('spark.sql.files.maxPartitionBytes', 100000000)

Это не решило проблему, и я все еще получаю тот же код выхода:

Вызвано: org.apache.spark.SparkException: задание прервано из-за сбоя этапа: сбой задачи 82 на этапе 3314.0 4 раза, последний сбой: сбой задачи 82.3 на этапе 3314.0 (TID 822445, ip-172-32- 95-151.ec2.internal, исполнитель 478): ExecutorLostFailure (выполнение executor 478 вызвано одной из запущенных задач) Причина: контейнер помечен как сбойный: container_1548172659463_0001_01_098577 на хосте: ip-172-32-95-151.ec2.internal. Состояние выхода: 52. Диагностика: Исключение из контейнера-запуска. Идентификатор контейнера: container_1548172659463_0001_01_098577 Код выхода: 52 Трассировка стека: ExitCodeException exitCode = 52:

...