Мы используем AWS Glue Jobs для обработки некоторых наших данных. Мы используем pyspark для обработки данных, но время от времени мы видим эту ошибку на каком-то этапе работы:
An error occurred while calling o82.parquet. Not Found (Service: Amazon S3; Status Code: 404; Error Code: 404 Not Found; Request ID: ABC111; S3 Extended Request ID: ABC111abc111)
Эта ошибка кажется неустойчивой, а иногда просто повторяется та же самая работа с теми же параметрами, кажется, работает нормально, но это определенно не очень описательная ошибка, и мы хотели бы избежать ее, поскольку наше число автоматизированных заданий растет.
В журналах Cloudwatch последние журналы, которые я вижу :
WARN [Executor task launch worker for task 1318] client.YarnClient (YarnClient.java:makeRestApiRequest(66)) - The GET request failed for the URL http://0.0.0.0:8088/ws/v1/cluster/apps/application_1583197528647_0001
om.amazon.ws.emr.hadoop.fs.shaded.org.apache.http.conn.HttpHostConnectException: Connect to 0.0.0.0:8088 [/0.0.0.0] failed: Connection refused (Connection refused)
at com.amazon.ws.emr.hadoop.fs.shaded.org.apache.http.impl.conn.DefaultHttpClientConnectionOperator.connect(DefaultHttpClientConnectionOperator.java:158)
...
Caused by: java.net.ConnectException: Connection refused (Connection refused)
...
ERROR [SIGTERM handler] executor.CoarseGrainedExecutorBackend (SignalUtils.scala:apply$mcZ$sp(43)) - RECEIVED SIGNAL TERM
Обзор задания: чтение файлов json с помощью Glue Data Catalog, запись агрегированных данных в s3 в формате партера (я вижу новый раздел здесь, но почти уверен, что на этом шаге произойдет сбой поскольку я не вижу никаких сообщений, которые я помещаю в код после этого); читает данные с последнего шага, читает файл сопоставления csv из s3, объединяет 2 набора данных, делает некоторые дополнительные вычисления с использованием pyspark, наконец записывает вывод в s3 в формате csv.