Question

Во время моего импорта ETL некоторые предварительно синхронизированные записи несколько раз предоставляются моим источником (потому что обновляются службой) и поэтому импортируются несколько раз в AWS.Я хотел бы реализовать структуру, которая перезаписывает запись, если она уже существует (что-то похожее на хранилище значений ключей для нескольких строк, обновляемых дважды).

Мои требования подразумевают работу с одним терабайтом данных и работу с клеем (или, возможно, с красным смещением).

Я реализовал решение следующим образом:

Я читаю данные из моего источника
Я сохраняю каждую запись в отдельном файле, выбирая уникальный идентификатор содержимого в качестве имени файла.
Я индексирую свои необработанные данные с помощью сканера клея, сканируя новые файлы на S3
Я запускаю задание по склеиванию для преобразования необработанных данных в формат, совместимый с OLAP (паркет).

Это правильный путь?Мне кажется, это правильно, даже если у меня есть опасения по поводу большого количества отдельных файлов в моих необработанных данных (1 файл на запись).

Спасибо,

Гюго

ETL на S3: повторяющиеся строки: как обновить старые записи?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

ETL на S3: повторяющиеся строки: как обновить старые записи?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы