Question

Я новичок в этой концепции озера данных. Я хочу переместить 4 разные базы данных MySQL в озеро данных S3, чтобы я мог использовать спектр Redshift для его запроса. Многие из этих баз данных имеют таблицы, которые выполняют операции обновления. Каковы лучшие методы, чтобы справиться с этим в S3? Или S3 data lake не является правильным решением для этого.

Я попытался написать искровое задание, чтобы получить инкрементные данные, основанные на столбцах create_at и updated_at, и поместить их в S3. Проблема в том, что у меня будут дублирующиеся строки, если будет операция обновления.

Другой способ, которым я это сделал, - копировать всю таблицу каждый раз.

Я также пытался разделить сегменты S3 по часам, поэтому, если обновление произойдет в течение часа, я просто удалю этот сегмент и повторно обработаю этот час.

Мне кажется, что это очень смешно. Разве это не распространенный случай использования? Каковы лучшие практики вокруг этого?

Как озеро данных s3 обрабатывает обновленные строки базы данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как озеро данных s3 обрабатывает обновленные строки базы данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы