Разница и взаимосвязь между слотами, задачами на карте, разделением данных, Mapper - PullRequest
3 голосов
/ 18 ноября 2011

Я ознакомился с несколькими информационными книгами и бумагами hadoop.

Слот - это единица вычисления карты / уменьшения в узле.это может быть карта или уменьшить слот.Насколько я знаю, split - это группа блоков файлов в HDFS, которые имеют некоторую длину и расположение узлов, где они хранятся.Mapper - это класс, но когда создается экземпляр кода, он называется задачей карты.Я прав ?Мне не ясны различия и взаимосвязь между задачами карты, разделениями данных и Mapper.

Что касается планирования, я понимаю, что, когда слот карты узла является свободным, задача карты выбирается из неработающей задачи карты изапускается, если данные, обрабатываемые задачей карты, являются узлом.Может ли кто-нибудь объяснить это ясно с точки зрения вышеупомянутых понятий: слоты, картографическое задание и задача карты и т. Д.

Спасибо, Арун

Ответы [ 4 ]

4 голосов
/ 18 ноября 2011

Насколько я знаю, split - это группа блоков файлов в HDFS, которые имеют одинаковую длину и расположение узлов, в которых они хранятся.

InputSplit - это единица измеренияданные, которые будет обрабатывать конкретный картограф.Это не должна быть просто группа блоков HDFS.Это может быть одна строка, 100 строк из БД, файл размером 50 МБ и т. Д.

Мне не ясны различия и взаимосвязи между задачами карты, разбиениями данных и Mapper.

InputSplit обрабатывается задачей карты, а экземпляр Mapper является задачей карты.

0 голосов
/ 20 августа 2017

MAPPER: картограф является классом.ФАЗА КАРТЫ: фаза картографирования - это входной и выходной код для преобразования значений в пары ключей и значений (ключи, значения).MAPPER SLOT: для выполнения кода картографа и редуктора.

0 голосов
/ 20 марта 2015

входное разделение - это не данные, это ссылка на конкретный объем данных, которые отображают процесс сокращения. Обычно он совпадает с размером блока, потому что, если размер обоих не одинаков, а некоторые данные находятся на другом узле, нам нужно передать эти данные.

0 голосов
/ 01 декабря 2014

Как я понимаю:
сначала данные разделяются в HDFS на узлы данных
, затем, когда появляется новое задание, средство отслеживания заданий разделяет это задание на карту и сокращает число задач, а затем средство отслеживания заданий назначает каждое задание карты наузел, который уже имеет разделение данных, относящихся к этой задаче карты, так что данные являются локальными в узле, и перемещение данных не будет стоить, поэтому время выполнения будет как можно меньше
, но иногда нам приходится назначать задачуузел, на котором нет данных, поэтому узел должен получить данные по сети и затем обработать их

...