Во время моего импорта ETL некоторые предварительно синхронизированные записи несколько раз предоставляются моим источником (потому что обновляются службой) и поэтому импортируются несколько раз в AWS.Я хотел бы реализовать структуру, которая перезаписывает запись, если она уже существует (что-то похожее на хранилище значений ключей для нескольких строк, обновляемых дважды).
Мои требования подразумевают работу с одним терабайтом данных и работу с клеем (или, возможно, с красным смещением).
Я реализовал решение следующим образом:
- Я читаю данные из моего источника
- Я сохраняю каждую запись в отдельном файле, выбирая уникальный идентификатор содержимого в качестве имени файла.
- Я индексирую свои необработанные данные с помощью сканера клея, сканируя новые файлы на S3
- Я запускаю задание по склеиванию для преобразования необработанных данных в формат, совместимый с OLAP (паркет).
Это правильный путь?Мне кажется, это правильно, даже если у меня есть опасения по поводу большого количества отдельных файлов в моих необработанных данных (1 файл на запись).
Спасибо,
Гюго