Может ли Hadoop MapReduce работать на других файловых системах? - PullRequest
1 голос
/ 19 января 2012

Я слышал, что для работы с mapreduce ввод не нужен в HDFS. Это может быть в другой файловой системе .. Может кто-нибудь, пожалуйста, предоставьте мне больше информации об этом ..

Я немного запутался в этом? В автономном режиме данные могут находиться в локальной файловой системе. Но в режиме кластера, как мы можем указать, чтобы преобразовать задания в другую файловую систему?

Ответы [ 3 ]

3 голосов
/ 19 января 2012

Нет, это не должно быть в HDFS.Например, задания, которые нацелены на HBase, используя его извлечение записей TableInputFormat по сети из узлов HBase в качестве входных данных для заданий на карту.DbInputFormat может использоваться для извлечения данных из базы данных SQL в задание.Вы могли бы создать формат ввода, который бы выполнял что-то вроде чтения данных с монтирования NFS.

На практике вы хотите избежать передачи данных по сети, если можете.Производительность MR намного выше, если вы можете хранить данные локально на узлах, где выполняется задание, так как пропускная способность диска> пропускная способность сети.

2 голосов
/ 19 января 2012

На основе установленного в задании InputFormat, Hadoop может читать из любого источника.Hadoop предоставляет пару InputFormats .Также нетрудно написать пользовательский InputFormat, скажем, предоставить собственный формат в качестве ввода для задания.

В тех же строках Hadoop предоставляет пару OutputFormats и не должно быть трудным написать собственный OutputFormat.

Вот хорошая статья на DBInputFormat.

0 голосов
/ 20 января 2012

Другой способ достичь этого - поместить в файлы HDFS информацию, в которой хранятся реальные данные. Mapper получит эту информацию и извлечет реальные данные для обработки. Например, у нас может быть несколько файлов с URL-адресами данных для обработки. В этом случае мы потеряем локальность данных - в противном случае это нормально.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...