Индексирование файлов с помощью Lucene - PullRequest
0 голосов
/ 23 октября 2011

У меня есть набор файлов с различными расширениями .doc .txt .html и т. Д.

Как мне проиндексировать эти файлы для использования с Apache Lucene?

Ответы [ 4 ]

2 голосов
/ 25 декабря 2012

Вы можете использовать библиотеку apache POI , чтобы сначала извлечь из них текст, а затем проиндексировать их, используя код, доступный здесь: Apache Lucene - используйте lucene 3.4.0 для индексирования текстовых файлов

1 голос
/ 23 октября 2011

Для индексации полноформатных документов вам понадобится комбинация Apache Lucene и Apache Tika .
Если вы используете lucene, вам нужно будет проанализировать файлы с помощью библиотек Tika и передать содержимое в lucene для индексации.

Apache Tika позволяет легко извлекать apis-файлы, выполняя работу по обнаружению типов файлов и получению содержимого и других атрибутов из файлов.

Вы должны найти пример на них.

1 голос
/ 23 октября 2011

Lucene не так легко начать.Возможно, это излишнее чтение книги, но я начал использовать Lucene, прочитав несколько глав из Lucene in Action .

0 голосов
/ 23 октября 2011

Вы используете что-то вроде Apache Tika для извлечения текста из них.Возможно, вам будет проще начать с Apache Solr, а не с сырой люценой.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...