Индексирование файлов PDF с помощью Symfony с помощью Lucene - PullRequest
5 голосов
/ 19 февраля 2010

Я разработчик Symfony, и мой веб-сервер - Linux.Я уже использую плагин sfLucene.

Какой самый простой способ индексации PDF-файлов для поиска на сервере Linux Linux?

  1. XPDF , установлен вот так
  2. Apache Tika через ветвь плагина sfLucene SOLR
  3. А третий вариант?

Спасибо!

Ответы [ 2 ]

3 голосов
/ 02 марта 2010

Исходя из фона Zend, я обычно рекомендую использовать Zend_Search_Lucene.Пример XPDF действительно прост и выглядит просто.XPDF лицензируется как GPL - если это соответствует вашим потребностям, перейдите на # 1!

ZF можно легко интегрировать в ваши проекты Symfony, например, для Twitter Call .

2 голосов
/ 03 марта 2010

Существует множество библиотек для извлечения текстового контента из PDF. Для любого из них вам необходимо создать документ lucene с содержимым. Наиболее полезными будут те, у которых уже есть интеграция с lucene.

Apache PDFBox может создавать документ lucene непосредственно из файла PDF. Он будет содержать поля метаданных PDF, а также текстовое содержимое.

...