Question

Я отправляю скрипт Python (фактически, pyspark) в Glue Job для обработки файлов паркета и извлечения некоторой аналитики из этого источника данных.

Эти файлы паркета находятся в папке S3 и постоянно увеличиваются с появлением новых данных. Я был доволен логикой создания закладок, предоставляемой AWS Glue, потому что она очень помогает: в основном позволяет обрабатывать только новые данные без повторной обработки уже обработанных данных.

К сожалению, в этом сценарии я замечаю, что каждый раз, когда создаются дубликаты, похоже, что закладки AWS Glue вообще не работают. В чем причина этого неожиданного поведения?

Vzzarr · Answer 1 · 27 марта 2019

С https://docs.aws.amazon.com/glue/latest/dg/monitor-continuations.html

В настоящее время форматы Apache Parquet и ORC не поддерживаются.

AWS Glue Bookmark производит дубликаты

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

AWS Glue Bookmark производит дубликаты

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы