Мой сценарий Spark терпит неудачу, потому что корзина S3, из которой извлекается df, обновляется новыми файлами во время выполнения сценария.Меня не волнуют вновь поступающие файлы, но, видимо, это делает Spark.
Я пытался добавить команду REFRESH TABLE в сообщении об ошибке, но это не работает, потому что это невозможно узнать при исполнениивремя поступления новых файлов, поэтому невозможно узнать, куда поместить эту команду.Я попытался поместить эту команду REFRESH в 4 разных местах в сценарии (другими словами, вызвать ее 4 раза в разных точках в сценарии) - все с тем же сообщением об ошибке
Caused by: java.io.FileNotFoundException: No such file or directory '<snipped for posting>.snappy.parquet'
It is possible the underlying files have been updated. You can explicitly invalidate the cache in Spark by running 'REFRESH TABLE tableName' command in SQL or by recreating the Dataset/DataFrame involved.
Я создаю dfс: df = spark.table('data_base.bal_daily_posts')
Итак, что я могу сделать, чтобы убедиться, что файлы S3, поступающие на S3 post-script-kickoff, игнорируются и не выдают ошибку в сценарии?