Я ищу что-то вроде DISTRIBUTE BY
, но для картографов вместо редукторов.
У меня есть задание на преобразование только на карте, и я использую
SET mapred.min.split.size=2100000;
SET mapred.max.split.size=2100000;
Для управления количеством назначенных картографов. Общий размер раздела составляет около 800 МБ, а заданию присваивается около 400 картографов, что, по-видимому, согласуется с размером разделения. Проблема, которую я имею, состоит в том, что ~ 390 картографов заканчивают в <1m и показывают, что 0 записей были обработаны. Оставшиеся 10 картографов берут всю работу, и для ее завершения требуются дни. </p>
Есть ли способ, которым я могу заставить мапперов взять (приблизительно) равное количество записей, чтобы этого не произошло?