Я пытаюсь загрузить данные из S3 в RDS, используя Sqoop.У меня есть приблизительно 35 ГБ gzip-файлов в 70 различных файлах.
Вот моя команда, которую я запускаю, чтобы сделать это
sqoop export
--connect jdbc:mysql://a205067-pppp-ec2rds.abcd.us-east-1.rds.amazonaws.com/tprdb
--username user
--password password
--table DnB_WB_UniverseMaster
--export-dir s3://pppp-sukesh/FullFiles/
--fields-terminated-by '|'
--num-mappers 500
--direct
--default-character-set=latin1
dunsnumber
- мой первичный ключ
Проблема в том, что экспорт очень-очень медленный, и количество картографов, которое я вижу, составляет всего 4.
Какую оптимизацию я могу сделать здесь, чтобы ускорить загрузку.
Также у меня есть кластер EMRс 10 m4.large