У меня есть большое количество таблиц PostgreSQL с различными схемами и огромное количество данных внутри них.
Я не могу сейчас выполнять аналитику данных, потому что объем данных довольно большой - несколько ТБ данных, а PostgreSQL не может обрабатывать запросы в разумные сроки.
Я думаю о следующем подходе - я обработаю все свои таблицы PostgreSQL с помощью Apache Spark, загрузлю DataFrames и сохраню их как файлы Parquet в AWS S3. Затем я буду использовать RedShift Spectrum для запроса информации, хранящейся в этих файлах PARQUET.
Прежде всего, я хотел бы спросить - будет ли это решение работать вообще?
И второе - сможет ли RedShift Spectrum автоматически создавать EXTERNAL-таблицы из этих файлов Parquet без дополнительной спецификации схемы (даже если исходные таблицы PostgreSQL содержат неподдерживаемые типы данных AWS RedShift)?