ETL на S3: повторяющиеся строки: как обновить старые записи? - PullRequest
1 голос
/ 02 мая 2019

Во время моего импорта ETL некоторые предварительно синхронизированные записи несколько раз предоставляются моим источником (потому что обновляются службой) и поэтому импортируются несколько раз в AWS.Я хотел бы реализовать структуру, которая перезаписывает запись, если она уже существует (что-то похожее на хранилище значений ключей для нескольких строк, обновляемых дважды).

Мои требования подразумевают работу с одним терабайтом данных и работу с клеем (или, возможно, с красным смещением).

Я реализовал решение следующим образом:

  • Я читаю данные из моего источника
  • Я сохраняю каждую запись в отдельном файле, выбирая уникальный идентификатор содержимого в качестве имени файла.
  • Я индексирую свои необработанные данные с помощью сканера клея, сканируя новые файлы на S3
  • Я запускаю задание по склеиванию для преобразования необработанных данных в формат, совместимый с OLAP (паркет).

Это правильный путь?Мне кажется, это правильно, даже если у меня есть опасения по поводу большого количества отдельных файлов в моих необработанных данных (1 файл на запись).

Спасибо,

Гюго

...