Amazon S3 - это просто система хранения.Он будет хранить любые предоставленные данные.
не можно «обновить» объект в Amazon S3.Объект может быть перезаписан (заменен), но не может быть добавлен.
Традиционно, информация в озерах данных добавляется добавлением дополнительных файлов , таких как ежедневный дамп информации.Системы, которые обрабатывают данные из озера данных, обычно обрабатывают несколько файлов.На самом деле это более эффективный процесс, поскольку данные могут обрабатываться параллельно, а не пытаться прочитать один большой файл.
Итак, ваша система может либо создать новый полный дамп, который заменяет данные, либоможет хранить дополнительные файлы с инкрементными данными.
Другая распространенная практика - это раздел данных, который помещает файлы в разные каталоги, например, в другой каталог на месяц, день или час.Таким образом, когда система обрабатывает данные в озере данных, ей нужно только читать файлы в каталогах, которые, как известно, содержат данные за определенный период времени.Например, если запрос желает обработать данные за определенный месяц, ему нужно только прочитать каталог с данными за этот месяц, тем самым ускорив процесс.(Разделы также могут быть иерархическими, например, иметь каталоги для часа внутри дня внутри месяца.)
Чтобы ответить на ваш вопрос о том, «как мы должны реализовать Delta load / SCD Types в S3», это действительно зависит от как вы будете использовать данные , когда они окажутся в озере данных.Было бы хорошо хранить данные таким образом, чтобы это помогло системе, которая в конечном итоге их использует.