Mapper полностью зависит от номера файла, т.е. размера файла, который мы можем назвать как входные разбиения. Разделение - это логическое разделение данных.
Пример: размер моего файла составляет 150 МБ, а блок HDFS по умолчанию - 128 МБ. Это создаст два разбитых средства на два блока. Два Mapper будут назначены для этой работы.
Imp Примечание: Предположим, я указал размер сплита 50 МБ, тогда он запустит 3 Mapper, поскольку он полностью зависит от количества сплитов.
Imp Примечание: , если вы ожидаете 10 ТБ входных данных и размер блока 128 МБ , вы получите 82 000 карт , если Configuration.set (MRJobConfig.NUM_MAPS, int) (который предоставляет только подсказку для структуры) используется для его установки еще выше.
Примечание: Если мы не указали размер разделения, он будет принимать размер блока hdfs по умолчанию в качестве размера разделения.
Редуктор имеет 3 основных фазы: перемешать, отсортировать и уменьшить .
Команда:
1] Установить задачу карты: -D mapred.map.tasks = 4
2] Установить задачу уменьшения: -D mapred.reduce.tasks = 2