Как обрабатывать исторические и текущие данные в S3? - PullRequest
0 голосов
/ 07 ноября 2019

У меня есть процесс ETL, данные поступают в формате json, а nifi - в avro. Раз в неделю я выполняю запрос Athena, чтобы объединить эти данные в паркет за прошлые периоды, чтобы получить представление обо всех данных, которые я объединяю между двумя таблицами. Кажется, это нормально, первый запуск.

Вторая неделя для добавления к созданным файлам паркета. Я запрашиваю оба местоположения с помощью CTAS и генерирую новый исторический паркет, чтобы заменить предыдущий.

Вопроскак справиться с этим? Этот путь кажется неправильным. Я не хочу иметь тысячи файлов для сканирования, но и не все воссоздать. Может быть, Афина вставит в новый раздел?

...