Блоки в Мапредуце - PullRequest
       6

Блоки в Мапредуце

2 голосов
/ 16 октября 2019

У меня очень важный вопрос, потому что я должен сделать презентацию о сокращении карты. Мой вопрос:

Я прочитал, что файл в map-redux разделен на блоки, и каждый блок реплицируется в 3 разных узла. блок может быть 128 МБ это блокировать входной файл? Я имею в виду, что этот блок размером 128 МБ будет разделен на части, и каждая часть перейдет на одну карту? если да, то этот 128 МБ будет разделен на какой размер? или Файл разбивается на блоки, и эти блоки являются входными данными для картостроителя. Я немного запутался.

Не могли бы вы увидеть фотографию и сказать, какая из них правильная?

ЗдесьФайл HDFS разделен на блоки и каждый отдельный блок 128. МБ будет использоваться в качестве входных данных для 1 карты

Здесь файл HDFS представляет собой блок, и эти 128 МБ будут разделяться, и каждая часть будетвводить для 1 карты

Ответы [ 2 ]

1 голос
/ 16 октября 2019

HDFS хранит файл в виде блоков, и каждый блок имеет размер 128 МБ (по умолчанию). Mapreduce обрабатывает этот файл HDFS. Каждый картограф обрабатывает блок (входное разбиение). Итак, чтобы ответить на ваш вопрос, 128 Мбайт - это размер одного блока, который не будет разделяться дальше.

Примечание: размер разделения на входе, используемый в контексте mapreduce, является логическим разделением, тогда как размер разделения, упомянутый в HDFS, является физическимразделить.

1 голос
/ 16 октября 2019

Допустим, у вас есть файл объемом 2 ГБ, и вы хотите поместить этот файл в HDFS, тогда будет 2 ГБ / 128 МБ = 16 блоков, и эти блоки будут распределены по различным узлам данных.

Разделение данныхпроисходит на основе смещения файлов. Целью разделения файла и его хранения на различные блоки является параллельная обработка и восстановление после сбоя данных.

Разделение - это логическое разделение данных, в основном используемое при обработке данных с использованием программы Map / Reduce или других данных. методы обработки в Hadoop. Размер разделения - это значение, определяемое пользователем, и можно выбрать его собственный размер разделения на основе объема данных (объем обрабатываемых данных).

Разделение в основном используется для управления количеством картографов в программе Map / Reduce. Если вы не определили размер входного разделения в программе Map / Reduce, то разделение блоков HDFS по умолчанию будет рассматриваться как входное разделение. (т. е. Input Split = Input Block. Таким образом, для файла размером 2 ГБ будет запущено 16 преобразователей). Если размер Split определен как 100 МБ (скажем так), то будет запущен 21 Mapper (20 Mappers для 2000 МБ и 21-й Mapper для 48 МБ).

Надеюсь, это очистит ваши сомнения.

...