Как работает система плагинов Nutch? - PullRequest
1 голос
/ 19 сентября 2009

Я новичок в Nutch, но я знаю, что Nutch использует Lucene для индексации, которая понимает только текстовый формат.

Nutch имеет множество плагинов, которые используются для сканирования документов определенного формата.

Я сомневаюсь: как работает система плагинов Nutch?

Я видел вики-страницу команды для орех

Мне бы хотелось получить некоторую информацию о том, как на самом деле работает Натч с Люсином.

1 Ответ

1 голос
/ 11 ноября 2010

Все, что делает Lucene, - это способ добавления " Documents " в структурированный индекс и выполнения запросов к этому индексу.

Сканер Nutch (я полагаю, это именно то, что вы имеете в виду под Nutch) просто обеспечивает простой способ получения неструктурированных данных (например, веб-сайта) для вставки в индекс. Так же, как вы можете использовать Solr, чтобы легко вставить XML-данные в индекс lucene.

Плагины Nutch просто обеспечивают ловушку, где вы можете поставить логику клиента. Например, « parse-pdf » может преобразовать двоичный файл PDF в один из этих «документов lucene». В основном все, что он делает - это использует API, который может читать документы PDF ( pdfbox ) для извлечения текста (это похоже на то, что делает "parse-html", так как в html много частей, которые не являются текстовыми) Например, все HTML-теги).

Итак, что касается вашего беспокойства по поводу двоичных форматов, его не сложно разобрать, просто трудно получить что-то полезное. Например, мы можем написать плагин "parse-image", который мог бы извлечь много информации об изображении (например, имя, формат, размер), просто сложно проанализировать "лицо" или "собаку" на картинке.

...