Я использую emr 5.26.0 и sqoop 1.4.7 для импорта таблицы в hdfs. Импорт выполняется в формате паркета. Но оператор import занимает слишком много времени для завершения функции.
Раньше при использовании sqoop 1.4.6 время было минимальным, я пытался увеличить счетчик карт, но без улучшений.
Нужно ли устанавливать настройки в EMR CLI перед использованием sqoop?
sqoop import \
--connect "jdbc:postgresql://HOST/DB" \
--username "user" \
--password "pwd" \
--table name \
--split-by 'col_name' \
--num-mappers 50 \
--target-dir name \
--as-parquetfile