Ошибка при попытке использовать аргумент --boundary-query в импорте sqoop - PullRequest
0 голосов
/ 12 ноября 2018

Я изучаю sqoop самостоятельно и попытался запустить приведенный ниже код, чтобы извлечь первые 3000 записей из базы данных и равномерно разделить по первичному ключу emp_no

 sqoop import \

 --connect jdbc:mysql://localhost/employees \

 --username root \

 -P \

--query 'select * from employees WHERE $CONDITIONS ORDER BY emp_no LIMIT 3000' \

--split-by emp_no \

-m 3 \

--target-dir sqoop/import_data/employee_db_import \

--delete-target-dir

Вышеуказанные операторы дали равномерно распределенные результаты 1000 записей на маппер.

Теперь для дальнейшего изучения я добавил аргумент --boundary-query как

 --boundary-query 'select MIN(emp_no),MAX(emp_no) from employees' 

к приведенному выше утверждению, и задача сокращения карты теперь читает 9000 записей из базы данных. Я хочу знать, почему это происходит?

...