Заставить клей удалить исходные данные после работы - PullRequest
0 голосов
/ 21 февраля 2020

AWS Клей отлично подходит для преобразования данных из необработанной формы в любой необходимый вам формат и для синхронизации исходных и целевых наборов данных.

Однако у меня есть сценарий, когда данные попадают в ' область посадки из ненадежных внешних источников, и первый шаг ETL должен быть этапом проверки данных, который позволяет только допустимым данным передаваться в озеро данных, в то время как недействительные данные перемещаются в область карантина для ручной проверки.

Недействительные данные включают в себя:

  • неверные форматы / кодировки файлов
  • непарсируемое содержимое
  • несоответствующие схемы
  • даже некоторые проверки работоспособности на самих данных

Область «области посадки» не является частью озера данных, это лишь временная мертвая точка для входящих данных, поэтому мне нужно задание проверки для удаления файлов из это ведро, как только оно перенесло их в озеро и / или в карантинное ведро.

Возможно ли это с помощью клея? Если данные будут удалены из исходного архива, не приведет ли Glue к удалению их в последующем обновлении в последующем обновлении?

Мне понадобится другой инструмент (например, StreamSets, NiFi или Step Functions с * 1025) * Пакетная обработка) для этого шага проверки, и использовать ли клей только после того, как данные окажутся в озере?

(я знаю, что могу установить правила жизненного цикла в самой корзине для удаления данных через определенное время, например через 24 часа , но теоретически это может удалить данные до того, как Glue обработает их, например, в случае проблемы с заданием Glue)

1 Ответ

0 голосов
/ 25 февраля 2020

Ваша клеевая среда поставляется с boto3. Вам лучше использовать клиент / ресурс boto3 s3 для удаления файлов посадки после того, как вы завершили обработку данных с помощью клея

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...