--num-mappers
является подсказкой, и Sqoop может не использовать точно указанное число. По умолчанию это значение 4
.
Этот параметр управляет параллелизмом. Например, если вы импортируете данные из базы данных в таблицу Hive, число картографов определяет параллельные соединения, которые Sqoop будет устанавливать с базой данных для одновременной передачи и выполнения передачи данных. С одной стороны, использование большего числа картографов приведет к большему параллелизму и ускорит передачу данных. С другой стороны, это увеличит нагрузку на базу данных.
Увеличение числа картографов за пределами определенной точки, вероятно, приведет к насыщению базы данных (или администратор базы данных мог установить настроенный лимит), поэтому производительность будет снижаться.
Кроме того, в вашем кластере должно быть достаточно свободных ресурсов для поддержки указанного числа картографов.
Вы можете выполнить несколько пробных прогонов с несколькими различными значениями и посмотреть, что дает наилучшую производительность для вашего набора данных и среды.