Question

Я ознакомился с несколькими информационными книгами и бумагами hadoop.

Слот - это единица вычисления карты / уменьшения в узле.это может быть карта или уменьшить слот.Насколько я знаю, split - это группа блоков файлов в HDFS, которые имеют некоторую длину и расположение узлов, где они хранятся.Mapper - это класс, но когда создается экземпляр кода, он называется задачей карты.Я прав ?Мне не ясны различия и взаимосвязь между задачами карты, разделениями данных и Mapper.

Что касается планирования, я понимаю, что, когда слот карты узла является свободным, задача карты выбирается из неработающей задачи карты изапускается, если данные, обрабатываемые задачей карты, являются узлом.Может ли кто-нибудь объяснить это ясно с точки зрения вышеупомянутых понятий: слоты, картографическое задание и задача карты и т. Д.

Спасибо, Арун

Praveen Sripati · Answer 1 · 18 ноября 2011

Насколько я знаю, split - это группа блоков файлов в HDFS, которые имеют одинаковую длину и расположение узлов, в которых они хранятся.

InputSplit - это единица измеренияданные, которые будет обрабатывать конкретный картограф.Это не должна быть просто группа блоков HDFS.Это может быть одна строка, 100 строк из БД, файл размером 50 МБ и т. Д.

Мне не ясны различия и взаимосвязи между задачами карты, разбиениями данных и Mapper.

InputSplit обрабатывается задачей карты, а экземпляр Mapper является задачей карты.

prasad · Answer 2 · 20 августа 2017

MAPPER: картограф является классом.ФАЗА КАРТЫ: фаза картографирования - это входной и выходной код для преобразования значений в пары ключей и значений (ключи, значения).MAPPER SLOT: для выполнения кода картографа и редуктора.

user2999342 · Answer 3 · 20 марта 2015

входное разделение - это не данные, это ссылка на конкретный объем данных, которые отображают процесс сокращения. Обычно он совпадает с размером блока, потому что, если размер обоих не одинаков, а некоторые данные находятся на другом узле, нам нужно передать эти данные.

Flowra · Answer 4 · 01 декабря 2014

Как я понимаю:
сначала данные разделяются в HDFS на узлы данных
, затем, когда появляется новое задание, средство отслеживания заданий разделяет это задание на карту и сокращает число задач, а затем средство отслеживания заданий назначает каждое задание карты наузел, который уже имеет разделение данных, относящихся к этой задаче карты, так что данные являются локальными в узле, и перемещение данных не будет стоить, поэтому время выполнения будет как можно меньше
, но иногда нам приходится назначать задачуузел, на котором нет данных, поэтому узел должен получить данные по сети и затем обработать их

Разница и взаимосвязь между слотами, задачами на карте, разделением данных, Mapper

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Разница и взаимосвязь между слотами, задачами на карте, разделением данных, Mapper

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы