Question

Также я хочу знать, как добавить метаданные при индексации, чтобы можно было повысить некоторые параметры

Yuval F · Answer 1 · 06 апреля 2010

Существует несколько платформ для извлечения текста, подходящего для индексации Lucene из форматированных текстовых файлов (pdf, ppt и т. Д.)

Одна из них Apache Tika проект Lucene.
Apache POI - более общий проект обработки документов внутри Apache.
Существуют также некоторые коммерческие альтернативы.

Sergey Kabashnyuk · Answer 2 · 16 апреля 2010

Вы можете использовать Apache Tika . Tika - это набор инструментов для обнаружения и извлечения метаданных и структурированного текстового содержимого из различных документов с использованием существующих библиотек синтаксического анализатора.

Поддерживаемые форматы документов

Язык разметки гипертекста
XML и производные форматы
Форматы документов Microsoft Office
Формат OpenDocument
Формат переносимого документа
Формат электронной публикации
Rich Text Format
форматы сжатия и упаковки
Текстовые форматы
Аудио форматы
Форматы изображений
Форматы видео
Файлы и архивы классов Java
Формат mbox

Код будет выглядеть следующим образом. Читатель читатель = новая Тика (). Parse (поток);

Wolfgang Fahl · Answer 3 · 12 мая 2013

см. https://github.com/WolfgangFahl/pdfindexer для решения Java, которое использует PDFBox и Apache Lucene для разделения PDF-файлов постранично на текст, проиндексируйте эти текстовые страницы и создайте результирующий HTML-файл индекса, который ссылается на страницы в источниках pdf, используя соответствующий открытый параметр.

Michael Shimmins · Answer 4 · 06 апреля 2010

Lucene индексирует текст, а не файлы - вам понадобится другой процесс для извлечения текста из файла и запуска Lucene поверх него.

Как индексировать pdf, ppt, xl файлы в lucene (на основе java или python или php, все это нормально)?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как индексировать pdf, ppt, xl файлы в lucene (на основе java или python или php, все это нормально)?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы