У нас есть необработанные данные, хранящиеся в S3 как паркет.Я хочу, чтобы часть этих данных была загружена в Redshift.Чтобы было ясно, данные Redshift будут результатом запроса (объединений, фильтров, агрегаций) необработанных данных.
Первоначально я думал, что смогу построить представления в Афине и загрузить результаты в Redshift -но кажется, что это не так просто!
Работы по склеиванию ETL нуждаются в источнике S3 или RDS - не примут вид из Афины.(Также нельзя сканировать представление).
Следующее решение состояло в том, чтобы поиграть с функциональностью Athena CTAS, записать результаты представления в S3 и затем загрузить в RedShift.Тем не менее, в CTAS нет опции «перезаписать».
Так что вопросы ... Есть ли более простой способ подойти к этому?(кажется простым требованием) Существует ли простой обходной путь для выполнения CTAS с поведением «перезаписи»?С этим должно было бы быть решение, которое могло бы быть объединено в запланированную работу - и я уже думаю, что это приводит к созданию собственного сценария.
Когда простая работа становится такой сложной - я не могу не думать, чтопропускаю что-то простое!?
Спасибо