Hadoop использовать структуру папок в качестве ввода - PullRequest
0 голосов
/ 12 января 2012

Я новичок, пытающийся использовать Hadoop, и я думаю, что, хотя я понимаю общие вещи, связанные с уменьшением карты, мне кажется, что в начале что-то не хватает.

В основном я пытаюсь проанализировать веб-сайт (локальный) используя hadoop и в результате имеем структуру ссылок (чтобы позже я мог вычислить некоторый ранг страницы).

Таким образом, входные данные представляют собой структуру папок (с вложенными папками и файлами), а выходные данные должны быть, на данный момент,каждый файл со списком файлов, которые ссылаются на него.

Какой InputFormat мне следует использовать?FileInputFormat, похоже, не работает (я получаю исключение при обнаружении папки - говоря, что это каталог).На самом деле существует ли такой InputFormat, который позволяет вводить такие структуры папок?

Если нет ... я должен как-то предварительно обработать входные данные?То есть я должен вынуть каждый HTML-файл в один каталог и посмотреть там?Или есть способ написать такой InputFormat, который делает то, что мне нужно?

1 Ответ

2 голосов
/ 13 января 2012

На самом деле существует ли такой InputFormat, который позволяет вводить такие структуры папок?

Все FileInputFormat принимают путь в качестве ввода, который может быть каталогом или файлом.

FileInputFormat, похоже, не работает (я получаю исключение при обнаружении папки - говорю, что это каталог).

JIRA былисправлено в некоторых выпусках (0,21, 0,22, 0,23 и транк).oahmapred.FileInputFormat должен иметь реализованный метод addInputPathRecursively.Также заметил, что он не реализован в новом API (oahmapreduce.FileInputFormat).Вот код для класса oahmapred.FileInputFormat из транка.

Кстати, какой релиз вы используете?

В основном я пытаюсь проанализировать веб-сайт(локально), используя hadoop, и в результате имеем структуру ссылок (чтобы потом я мог вычислить какой-то рейтинг страницы).

Из-за внимания / шумихи в СМИ Hadoop используется для каждой вещи.Hadoop как есть хорошо работает для некоторых типов проблем.Попробуйте использовать Apache Hama и Giraph для обработки графиков.Обратите внимание, что оба находятся в инкубаторе, и документация также редкая.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...