Как индексировать pdf, ppt, xl файлы в lucene (на основе java или python или php, все это нормально)? - PullRequest
3 голосов
/ 06 апреля 2010

Также я хочу знать, как добавить метаданные при индексации, чтобы можно было повысить некоторые параметры

Ответы [ 4 ]

4 голосов
/ 06 апреля 2010

Существует несколько платформ для извлечения текста, подходящего для индексации Lucene из форматированных текстовых файлов (pdf, ppt и т. Д.)

  • Одна из них Apache Tika проект Lucene.
  • Apache POI - более общий проект обработки документов внутри Apache.
  • Существуют также некоторые коммерческие альтернативы.
2 голосов
/ 16 апреля 2010

Вы можете использовать Apache Tika . Tika - это набор инструментов для обнаружения и извлечения метаданных и структурированного текстового содержимого из различных документов с использованием существующих библиотек синтаксического анализатора.

Поддерживаемые форматы документов

  • Язык разметки гипертекста
  • XML и производные форматы
  • Форматы документов Microsoft Office
  • Формат OpenDocument
  • Формат переносимого документа
  • Формат электронной публикации
  • Rich Text Format
  • форматы сжатия и упаковки
  • Текстовые форматы
  • Аудио форматы
  • Форматы изображений
  • Форматы видео
  • Файлы и архивы классов Java
  • Формат mbox

Код будет выглядеть следующим образом. Читатель читатель = новая Тика (). Parse (поток);

1 голос
/ 12 мая 2013

см. https://github.com/WolfgangFahl/pdfindexer для решения Java, которое использует PDFBox и Apache Lucene для разделения PDF-файлов постранично на текст, проиндексируйте эти текстовые страницы и создайте результирующий HTML-файл индекса, который ссылается на страницы в источниках pdf, используя соответствующий открытый параметр.

1 голос
/ 06 апреля 2010

Lucene индексирует текст, а не файлы - вам понадобится другой процесс для извлечения текста из файла и запуска Lucene поверх него.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...