огромная разница между временем выполнения картографов - PullRequest
0 голосов
/ 02 мая 2018

Я пытаюсь импортировать таблицу с sqoop; Я использую 4 картографа. Проблема в том, что время выполнения между мапперами огромно. Некоторым меньше 10 минут, другим больше часа. можешь объяснить почему? и как оптимизировать мой импорт? enter image description here

Ответы [ 2 ]

0 голосов
/ 02 мая 2018

Попробуйте использовать параметр --split-limit для оптимизации импорта. Если размер созданного разбиения больше, чем размер, указанный в этом параметре, размер разбиений будет изменен, чтобы соответствовать этому пределу, и количество разбиений будет изменяться в соответствии с этим. Это влияет на фактическое количество картографов и приводит к более сбалансированным картографам.

0 голосов
/ 02 мая 2018

Похоже, что причиной этой разницы может быть неравномерное распределение данных среди картографов.

Я думаю, вы можете проверить, что является первичным ключом таблицы и каков диапазон значений, таких как минимальное и максимальное значения. Потому что в зависимости от диапазона данные будут распределяться по картографам. И проверьте, импортируется ли больше данных последними двумя сопоставителями.

...