Все, что делает Lucene, - это способ добавления " Documents " в структурированный индекс и выполнения запросов к этому индексу.
Сканер Nutch (я полагаю, это именно то, что вы имеете в виду под Nutch) просто обеспечивает простой способ получения неструктурированных данных (например, веб-сайта) для вставки в индекс. Так же, как вы можете использовать Solr, чтобы легко вставить XML-данные в индекс lucene.
Плагины Nutch просто обеспечивают ловушку, где вы можете поставить логику клиента. Например, « parse-pdf » может преобразовать двоичный файл PDF в один из этих «документов lucene». В основном все, что он делает - это использует API, который может читать документы PDF ( pdfbox ) для извлечения текста (это похоже на то, что делает "parse-html", так как в html много частей, которые не являются текстовыми) Например, все HTML-теги).
Итак, что касается вашего беспокойства по поводу двоичных форматов, его не сложно разобрать, просто трудно получить что-то полезное. Например, мы можем написать плагин "parse-image", который мог бы извлечь много информации об изображении (например, имя, формат, размер), просто сложно проанализировать "лицо" или "собаку" на картинке.