Hive - случайное распределение записей по картографам - PullRequest
0 голосов
/ 30 августа 2018

Я ищу что-то вроде DISTRIBUTE BY, но для картографов вместо редукторов.

У меня есть задание на преобразование только на карте, и я использую

SET mapred.min.split.size=2100000;
SET mapred.max.split.size=2100000;

Для управления количеством назначенных картографов. Общий размер раздела составляет около 800 МБ, а заданию присваивается около 400 картографов, что, по-видимому, согласуется с размером разделения. Проблема, которую я имею, состоит в том, что ~ 390 картографов заканчивают в <1m и показывают, что 0 записей были обработаны. Оставшиеся 10 картографов берут всю работу, и для ее завершения требуются дни. </p>

Есть ли способ, которым я могу заставить мапперов взять (приблизительно) равное количество записей, чтобы этого не произошло?

1 Ответ

0 голосов
/ 30 августа 2018

Fixed. По всей видимости, таблица, запрашиваемая из только 10 файлов в HDFS, и, следовательно, можно использовать только 10 картографов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...