Может кто-нибудь помочь мне разобраться в этом?Я вполне понимаю, что когда я запускаю скрипт Sqoop, мапперы по умолчанию равны 4, и он работает параллельно.Итак, Sqoop создает 4 набора сценариев SQL на основе первичного ключа, в результате чего получается четыре блока данных.
Я не понимаю, работают ли эти преобразователи на всех узлах?Потому что, если каждый преобразователь работает на каждом узле, загрузка будет намного быстрее, учитывая, что вся пропускная способность узла может использоваться.
Или, альтернативно, все 4 сопоставителя остаются на одном узле, так что параллелизмЭффект будет только на ЦП (гиперпоточность), а не на пропускную способность, и, следовательно, только улучшит скорость загрузки (немного), если каждый картограф не использует максимальную пропускную способность.
Я действительно запутался.Любой вклад приветствуется.Никто другой не задал этот вопрос из того, что я могу сказать.