Загрузка данных в Аврору из s3 - большой файл - PullRequest
0 голосов
/ 11 марта 2019

В настоящее время я использую athena для обработки и выполнения ETL - откуда я получаю csv-файл, содержащий весь набор данных для загрузки в таблицы aurora rds. Я обнаружил, что LOAD DATA FROM S3 является опцией для загрузки данных. Поскольку эти файлы очень большие, около 10 ГБ с 4-5 миллионами строк данных. Может ли Aurora обрабатывать такие огромные объемы данных из одного и того же файла, или будут ли тайм-ауты во время этого процесса. Как сделать этот процесс более эффективным, если это необходимо?

1 Ответ

1 голос
/ 12 марта 2019

Для этого следует рассмотреть возможность использования службы миграции баз данных AWS.После настройки миграции AWS DMS полностью управляет работой, и она позаботится о любых таймаутах или сбоях, с которыми она может столкнуться.

AWS DMS позволяет использовать множество источников (, включая S3 ) для загрузки данных во многие цели (, включая Aurora ).

AWS DMS можно выполнить как одноразовую задачу или как начальную загрузку с постоянной репликацией данных.

Все изменения данных в исходной базе данных, которые происходят во время миграции, непрерывно реплицируются в целевой объект.

(Из Преимущества AWS DMS )

...