У меня есть требование для передачи данных (частота = одна передача каждый вечер) из локальной реляционной базы данных (SQL сервер) в AWS S3 (поскольку требование к файлам csv и формату csv является обязательным). Размер данных составляет около 500 ГБ. При отсутствии CD C вся база данных будет копироваться каждый вечер.
Конечно, мы можем думать о таких форматах, как паркет или или c, но csv является требованием в нашем случае использования.
Я подумал о соединении JDB C с кластером EMR-spark для импорта данных из предварительной базы данных RDBM перед преобразованием их в csv и отправкой в S3, но я не уверен, что это является наиболее оптимальной архитектурой.
Для JDB C я не знаю, существует ли способ иметь несколько соединений (между emr-spark и sqlserver) параллельно для ускорения передачи.
Это VPN-соединение, которое соединяет локальный сайт и часть aws.
Может кто-нибудь посоветовать мне лучший способ получить самый быстрый перевод, соблюдая принципы aws с хорошей архитектурой?