Question

Я новичок в Nutch, но я знаю, что Nutch использует Lucene для индексации, которая понимает только текстовый формат.

Nutch имеет множество плагинов, которые используются для сканирования документов определенного формата.

Я сомневаюсь: как работает система плагинов Nutch?

Я видел вики-страницу команды для орех

Мне бы хотелось получить некоторую информацию о том, как на самом деле работает Натч с Люсином.

mlathe · Answer 1 · 11 ноября 2010

Все, что делает Lucene, - это способ добавления " Documents " в структурированный индекс и выполнения запросов к этому индексу.

Сканер Nutch (я полагаю, это именно то, что вы имеете в виду под Nutch) просто обеспечивает простой способ получения неструктурированных данных (например, веб-сайта) для вставки в индекс. Так же, как вы можете использовать Solr, чтобы легко вставить XML-данные в индекс lucene.

Плагины Nutch просто обеспечивают ловушку, где вы можете поставить логику клиента. Например, « parse-pdf » может преобразовать двоичный файл PDF в один из этих «документов lucene». В основном все, что он делает - это использует API, который может читать документы PDF ( pdfbox ) для извлечения текста (это похоже на то, что делает "parse-html", так как в html много частей, которые не являются текстовыми) Например, все HTML-теги).

Итак, что касается вашего беспокойства по поводу двоичных форматов, его не сложно разобрать, просто трудно получить что-то полезное. Например, мы можем написать плагин "parse-image", который мог бы извлечь много информации об изображении (например, имя, формат, размер), просто сложно проанализировать "лицо" или "собаку" на картинке.

Как работает система плагинов Nutch?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как работает система плагинов Nutch?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы