Есть много таких вопросов, но, похоже, ничего не помогает.Я пытаюсь преобразовать довольно большие файлы csv.gz в паркет и продолжаю получать различные ошибки, такие как
'Command failed with exit code 1'
или
An error occurred while calling o392.pyWriteDynamicFrame. Job aborted due to stage failure: Task 0 in stage 0.0 failed 4 times, most recent failure: Lost task 0.3 in stage 0.0 (TID 3, ip-172-31-5-241.eu-central-1.compute.internal, executor 4): ExecutorLostFailure (executor 4 exited caused by one of the running tasks) Reason: Container marked as failed
.В мониторинге метрик я не вижу большой загрузки процессора или памяти.Существует движение данных ETL, но это должно вызвать любую ошибку при работе с S3.
Другая проблема заключается в том, что такая работа выполняется за 4-5 часов до броска.Это ожидаемое поведение?Файлы CSV имеют размер 30-40 столбцов.
Я не знаю, в каком направлении двигаться.Может ли Glue в целом обрабатывать такие большие файлы?