AWS клей дополнительная нагрузка - PullRequest
0 голосов
/ 02 декабря 2018

У меня есть корзина S3, куда сбрасываются каждодневные файлы.Сканер AWS сканирует данные из этого местоположения. В первый же день, когда запускается мое задание по склеиванию, он забирает все данные, присутствующие в таблице, созданной сканером AWS. Например, в первый же день есть три файла (т. Е. File1.txt, file2.txt, file3.txt) и связующее задание обрабатывают эти файлы в первый день выполнения связующего задания. На второй день еще два файла достигают местоположения S3. Теперь в расположении S3 это присутствующие файлы (т.е. file1.txt, file2.txt, file3.txt, file4.txt, file5.txt). Могу ли я каким-то образом спроектировать свой сканер AWS таким образом, чтобы на следующий день выполнения задания он просто считывал два файла (file4.txt, file5.txt)? Или как я могу написать клеевое задание AWS только для идентификации этих инкрементных файлов?

1 Ответ

0 голосов
/ 02 декабря 2018

Вам необходимо включить закладку задания AWS для клея, и она сможет сохранять состояние уже обработанных данных.Вы можете обратиться к ссылке ниже, чтобы узнать, как это сделать.

aws glue job bookmark

...