Как увеличить число картографов в задании Sqoop - PullRequest
0 голосов
/ 17 октября 2018

Я пытаюсь загрузить данные из S3 в RDS, используя Sqoop.У меня есть приблизительно 35 ГБ gzip-файлов в 70 различных файлах.

Вот моя команда, которую я запускаю, чтобы сделать это

sqoop export 
 --connect jdbc:mysql://a205067-pppp-ec2rds.abcd.us-east-1.rds.amazonaws.com/tprdb 
 --username user 
 --password password 
 --table DnB_WB_UniverseMaster 
 --export-dir s3://pppp-sukesh/FullFiles/ 
 --fields-terminated-by  '|' 
 --num-mappers 500 
 --direct 
 --default-character-set=latin1

dunsnumber - мой первичный ключ

Проблема в том, что экспорт очень-очень медленный, и количество картографов, которое я вижу, составляет всего 4.

Какую оптимизацию я могу сделать здесь, чтобы ускорить загрузку.

Также у меня есть кластер EMRс 10 m4.large

1 Ответ

0 голосов
/ 17 октября 2018

Попробуйте использовать только одну черту с аргументом m: -m 20 или --num-mappers 20.

...