Я надеюсь, что кто-то может помочь мне с этой проблемой.В настоящее время я работаю над проектом конвейера данных, моя текущая дилемма заключается в том, использовать ли паркет с Athena или сохранить его в Redshift
2 Сценарии: первый,
EVENTS --> STORE IT IN S3 AS JSON.GZ --> USE SPARK(EMR) TO CONVERT TO PARQUET --> STORE PARQUET BACK INTO S3 --> ATHENA FOR QUERY --> VIZ
второй,
EVENTS --> STORE IT IN S3 --> USE SPARK(EMR) TO STORE DATA INTO REDSHIFT
Проблемы с этим сценарием:
- JDBC Spark с Redshift работает медленно
- Репозиторий Spark-Redshift с использованием блоков данных имеет сбойную сборку и был обновлен 2 года назад
Я не могу найти полезную информацию о том, какой метод лучше.Должен ли я даже использовать Redshift или паркет достаточно хорош?
Также было бы замечательно, если бы кто-нибудь сказал мне, есть ли какие-либо другие методы для соединения спарк с Redshift, потому что есть только 2 решения, которые я видел в Интернете - JDBC иSpark-Reshift (Databricks)
PS модель ценообразования меня не волнует, я также имею дело с миллионами данных событий.