Question

У меня есть процесс ETL, данные поступают в формате json, а nifi - в avro. Раз в неделю я выполняю запрос Athena, чтобы объединить эти данные в паркет за прошлые периоды, чтобы получить представление обо всех данных, которые я объединяю между двумя таблицами. Кажется, это нормально, первый запуск.

Вторая неделя для добавления к созданным файлам паркета. Я запрашиваю оба местоположения с помощью CTAS и генерирую новый исторический паркет, чтобы заменить предыдущий.

Вопроскак справиться с этим? Этот путь кажется неправильным. Я не хочу иметь тысячи файлов для сканирования, но и не все воссоздать. Может быть, Афина вставит в новый раздел?

Как обрабатывать исторические и текущие данные в S3?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как обрабатывать исторические и текущие данные в S3?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы