Я новичок, пытающийся использовать Hadoop, и я думаю, что, хотя я понимаю общие вещи, связанные с уменьшением карты, мне кажется, что в начале что-то не хватает.
В основном я пытаюсь проанализировать веб-сайт (локальный) используя hadoop и в результате имеем структуру ссылок (чтобы позже я мог вычислить некоторый ранг страницы).
Таким образом, входные данные представляют собой структуру папок (с вложенными папками и файлами), а выходные данные должны быть, на данный момент,каждый файл со списком файлов, которые ссылаются на него.
Какой InputFormat мне следует использовать?FileInputFormat, похоже, не работает (я получаю исключение при обнаружении папки - говоря, что это каталог).На самом деле существует ли такой InputFormat, который позволяет вводить такие структуры папок?
Если нет ... я должен как-то предварительно обработать входные данные?То есть я должен вынуть каждый HTML-файл в один каталог и посмотреть там?Или есть способ написать такой InputFormat, который делает то, что мне нужно?