Я изучаю sqoop самостоятельно и попытался запустить приведенный ниже код, чтобы извлечь первые 3000 записей из базы данных и равномерно разделить по первичному ключу emp_no
sqoop import \
--connect jdbc:mysql://localhost/employees \
--username root \
-P \
--query 'select * from employees WHERE $CONDITIONS ORDER BY emp_no LIMIT 3000' \
--split-by emp_no \
-m 3 \
--target-dir sqoop/import_data/employee_db_import \
--delete-target-dir
Вышеуказанные операторы дали равномерно распределенные результаты 1000 записей на маппер.
Теперь для дальнейшего изучения я добавил аргумент --boundary-query как
--boundary-query 'select MIN(emp_no),MAX(emp_no) from employees'
к приведенному выше утверждению, и задача сокращения карты теперь читает 9000 записей из базы данных. Я хочу знать, почему это происходит?