Я новичок в этой концепции озера данных. Я хочу переместить 4 разные базы данных MySQL в озеро данных S3, чтобы я мог использовать спектр Redshift для его запроса. Многие из этих баз данных имеют таблицы, которые выполняют операции обновления. Каковы лучшие методы, чтобы справиться с этим в S3? Или S3 data lake не является правильным решением для этого.
Я попытался написать искровое задание, чтобы получить инкрементные данные, основанные на столбцах create_at и updated_at, и поместить их в S3. Проблема в том, что у меня будут дублирующиеся строки, если будет операция обновления.
Другой способ, которым я это сделал, - копировать всю таблицу каждый раз.
Я также пытался разделить сегменты S3 по часам, поэтому, если обновление произойдет в течение часа, я просто удалю этот сегмент и повторно обработаю этот час.
Мне кажется, что это очень смешно. Разве это не распространенный случай использования? Каковы лучшие практики вокруг этого?