AWS Glue Bookmark производит дубликаты - PullRequest
0 голосов
/ 27 марта 2019

Я отправляю скрипт Python (фактически, pyspark) в Glue Job для обработки файлов паркета и извлечения некоторой аналитики из этого источника данных.

Эти файлы паркета находятся в папке S3 и постоянно увеличиваются с появлением новых данных. Я был доволен логикой создания закладок, предоставляемой AWS Glue, потому что она очень помогает: в основном позволяет обрабатывать только новые данные без повторной обработки уже обработанных данных.

К сожалению, в этом сценарии я замечаю, что каждый раз, когда создаются дубликаты, похоже, что закладки AWS Glue вообще не работают. В чем причина этого неожиданного поведения?

1 Ответ

1 голос
/ 27 марта 2019

С https://docs.aws.amazon.com/glue/latest/dg/monitor-continuations.html

В настоящее время форматы Apache Parquet и ORC не поддерживаются.

...