Как озеро данных s3 обрабатывает обновленные строки базы данных? - PullRequest
1 голос
/ 09 ноября 2019

Я новичок в этой концепции озера данных. Я хочу переместить 4 разные базы данных MySQL в озеро данных S3, чтобы я мог использовать спектр Redshift для его запроса. Многие из этих баз данных имеют таблицы, которые выполняют операции обновления. Каковы лучшие методы, чтобы справиться с этим в S3? Или S3 data lake не является правильным решением для этого.

Я попытался написать искровое задание, чтобы получить инкрементные данные, основанные на столбцах create_at и updated_at, и поместить их в S3. Проблема в том, что у меня будут дублирующиеся строки, если будет операция обновления.

Другой способ, которым я это сделал, - копировать всю таблицу каждый раз.

Я также пытался разделить сегменты S3 по часам, поэтому, если обновление произойдет в течение часа, я просто удалю этот сегмент и повторно обработаю этот час.

Мне кажется, что это очень смешно. Разве это не распространенный случай использования? Каковы лучшие практики вокруг этого?

...