Попробуйте увеличить параллелизм маппера (в вашей команде это -m 1
параметр). Установите более высокое значение, чтобы каждый преобразователь обрабатывал меньше данных и занимал меньше памяти.
Также --split-by
необходимо, если число картографов> 1.
См. Предложения о разбивке по столбцам здесь .
Желательно равномерно распределенный целочисленный столбец.