Я отправляю скрипт Python (фактически, pyspark) в Glue Job для обработки файлов паркета и извлечения некоторой аналитики из этого источника данных.
Эти файлы паркета находятся в папке S3 и постоянно увеличиваются с появлением новых данных. Я был доволен логикой создания закладок, предоставляемой AWS Glue, потому что она очень помогает: в основном позволяет обрабатывать только новые данные без повторной обработки уже обработанных данных.
К сожалению, в этом сценарии я замечаю, что каждый раз, когда создаются дубликаты, похоже, что закладки AWS Glue вообще не работают. В чем причина этого неожиданного поведения?