Я занимался созданием заданий в pyspark и постоянно получаю одну похожую и периодически появляющуюся ошибку (скорее случайную):
An error occurred while calling o129.parquet. Not Found
(Service: Amazon S3; Status Code: 404; Error Code: 404 Not Found;
Request ID: D2FA355F92AF8F05; S3 Extended Request ID: 1/fWdf1DurwPDP40HDGARlMRO/7lKzFDJ4g7DbUnM04wUvG89CG9w5T+u4UxapkWp20MfQfdjsE=)
Я даже не читаю из s3, что я на самом деле делаю is: df.coalesce(100).write.partitionBy("mth").mode("overwrite").parquet("s3://"+bucket+"/"+path+"/out")
Таким образом, я изменяю раздел coalesce
, но я не уверен, что еще я должен сделать, чтобы смягчить эту ошибку и сделать мои работы более стабильными.