Есть ли в Glue возможность обновить таблицу? - PullRequest
1 голос
/ 05 апреля 2020

У меня есть данные, разделенные по дням, которые хранятся в S3, т.е. customer/year=2020/month=04/day=05, и у меня есть сканер, каталогизирующий эти данные. Данные поступают ежедневно. Есть ли в Glue возможность обновить таблицу клиентов в этом примере? Например, предположим, что в день = 06 были обнаружены новые клиенты, затем он был добавлен в таблицу, но давайте предположим, что существующие клиенты обновили поля, тогда есть ли возможность обновлять только таблицу? Или это новая запись в таблице?

В настоящее время при настройке искателя для обнаружения секционированных данных поля записи добавляются в запись. Я думаю, что я хотел бы знать, возможно ли постоянно иметь таблицу, представляющую последнее состояние данных?

Заранее спасибо. K

1 Ответ

1 голос
/ 06 апреля 2020

Подведение итогов вашего вопроса

Is there an option in Glue to update the customer table in that example?

Вы можете добавлять новые разделы в таблицу только тогда, когда они входят. Это означает, что если у вас есть запись клиента в предыдущих разделах и новая запись пришла в день = 06 для того же клиента, эта новая запись приходит с новой датой разделения и отображается вместе с данными для того же клиента с предыдущими разделенными датами. Вы не можете обновить одну и ту же запись клиента (если она на s3), если только вы не прочитаете все файлы и не проведете какое-либо ранжирование для создания нового набора данных.

...