AWS Запись задания склеивания на s3 в паркетном формате с ошибкой Not Found - PullRequest
1 голос
/ 13 февраля 2020

Я занимался созданием заданий в pyspark и постоянно получаю одну похожую и периодически появляющуюся ошибку (скорее случайную):

An error occurred while calling o129.parquet. Not Found 
(Service: Amazon S3; Status Code: 404; Error Code: 404 Not Found; 
Request ID: D2FA355F92AF8F05; S3 Extended Request ID: 1/fWdf1DurwPDP40HDGARlMRO/7lKzFDJ4g7DbUnM04wUvG89CG9w5T+u4UxapkWp20MfQfdjsE=)

Я даже не читаю из s3, что я на самом деле делаю is: df.coalesce(100).write.partitionBy("mth").mode("overwrite").parquet("s3://"+bucket+"/"+path+"/out")

Таким образом, я изменяю раздел coalesce, но я не уверен, что еще я должен сделать, чтобы смягчить эту ошибку и сделать мои работы более стабильными.

1 Ответ

0 голосов
/ 13 февраля 2020

для чтения файла из s3 с помощью клея

datasource0 = glueContext.create_dynamic_frame.from_options( connection_type = "s3", connection_options = {"paths": "s3/path"}, format = "json", transformation_ctx = "datasource0")

для записи файла в s3 с помощью клея

output = glueContext.write_dynamic_frame.from_options(frame = df, connection_type = "s3", connection_options = {"path": "s3/path"}, format = "parquet", transformation_ctx = "output")
...