Question

У меня есть набор файлов с различными расширениями .doc .txt .html и т. Д.

Как мне проиндексировать эти файлы для использования с Apache Lucene?

userPS · Answer 1 · 25 декабря 2012

Вы можете использовать библиотеку apache POI , чтобы сначала извлечь из них текст, а затем проиндексировать их, используя код, доступный здесь: Apache Lucene - используйте lucene 3.4.0 для индексирования текстовых файлов

Jayendra · Answer 2 · 23 октября 2011

Для индексации полноформатных документов вам понадобится комбинация Apache Lucene и Apache Tika .
Если вы используете lucene, вам нужно будет проанализировать файлы с помощью библиотек Tika и передать содержимое в lucene для индексации.

Apache Tika позволяет легко извлекать apis-файлы, выполняя работу по обнаружению типов файлов и получению содержимого и других атрибутов из файлов.

Вы должны найти пример на них.

stivlo · Answer 3 · 23 октября 2011

Lucene не так легко начать.Возможно, это излишнее чтение книги, но я начал использовать Lucene, прочитав несколько глав из Lucene in Action .

bmargulies · Answer 4 · 23 октября 2011

Вы используете что-то вроде Apache Tika для извлечения текста из них.Возможно, вам будет проще начать с Apache Solr, а не с сырой люценой.

Индексирование файлов с помощью Lucene

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Индексирование файлов с помощью Lucene

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов