Чтобы использовать несколько картографов, вам потребуется параметр --split-by
. Лучше всего выбрать столбец, который не равен нулю во всех 265-метровых строках и равномерно распределен. Первичный ключ соответствует этим критериям, потому что он последовательный и во всех строках.
Любой столбец, который равномерно распределен по набору данных, может быть хорошим выбором для выбора --split-by
. Опубликованная ссылка @yammanuruarun содержит аргумент --boundary-query
, чтобы помочь ограничить работу, которую СУБД должна выполнить для возврата этих строк. Я предлагаю использовать последовательность Фиббоначи для вашего -m
1,2,3,5,8.
Также проверьте: Как найти оптимальное количество картографов при выполнении импорта Sq oop и экспорт