Импорт Sqoop из postgresql занимает слишком много времени EMR 5.26.0 - PullRequest
0 голосов
/ 25 октября 2019

Я использую emr 5.26.0 и sqoop 1.4.7 для импорта таблицы в hdfs. Импорт выполняется в формате паркета. Но оператор import занимает слишком много времени для завершения функции.

Раньше при использовании sqoop 1.4.6 время было минимальным, я пытался увеличить счетчик карт, но без улучшений.

Нужно ли устанавливать настройки в EMR CLI перед использованием sqoop?

sqoop import \
    --connect "jdbc:postgresql://HOST/DB" \
    --username "user" \
    --password "pwd" \
    --table name \
    --split-by 'col_name' \
    --num-mappers 50 \
    --target-dir name \
    --as-parquetfile
...