Sqoop параллелизм в режиме кластера? - PullRequest
0 голосов
/ 31 мая 2018

Может кто-нибудь помочь мне разобраться в этом?Я вполне понимаю, что когда я запускаю скрипт Sqoop, мапперы по умолчанию равны 4, и он работает параллельно.Итак, Sqoop создает 4 набора сценариев SQL на основе первичного ключа, в результате чего получается четыре блока данных.

Я не понимаю, работают ли эти преобразователи на всех узлах?Потому что, если каждый преобразователь работает на каждом узле, загрузка будет намного быстрее, учитывая, что вся пропускная способность узла может использоваться.

Или, альтернативно, все 4 сопоставителя остаются на одном узле, так что параллелизмЭффект будет только на ЦП (гиперпоточность), а не на пропускную способность, и, следовательно, только улучшит скорость загрузки (немного), если каждый картограф не использует максимальную пропускную способность.

Я действительно запутался.Любой вклад приветствуется.Никто другой не задал этот вопрос из того, что я могу сказать.

...