Как настроить Apache Tika и Apache Solr для индексации и поиска в каталоге файлов pdf? - PullRequest
1 голос
/ 17 февраля 2012

Как я могу сделать Apache Tika индексировать каталог PDF и текстовые файлы, включая подкаталоги, и отправить его в Apache Solr, чтобы я мог иметь поисковую систему для содержимого этого каталога?

Любой совет, связанный сWindows или Linux это не имеет значения.Я не смог заставить это работать, потому что документация по этим двум проектам в основном предназначена для разработчиков, и это хорошо, но, тем не менее, я не могу заставить их сделать это, потому что документация расплывчата и недостаточно ясна для не Javadeveloper.

Очень просто: как мне создать поисковик, используя семейство проектов Apache Lucene, которое может индексировать и обеспечивать поиск для / home / material или c: / material или / cygdrive / c /материал

Заранее большое спасибо

Ответы [ 2 ]

2 голосов
/ 17 февраля 2012

Solr предоставляет ExtractingRequestHandler , который помогает в индексации документов с расширенными возможностями.
В списке примеров на странице используется curl для подачи данных в Solr.
Простой скрипт, который может перебирать папки и подпапки.и выполнение команд curl может создать индекс для всех документов.
Если вы используете любой клиент для Solr, например Solrj, rsolr, вы можете легко перебирать каталог и выполнять http-URL для индексации документов.

2 голосов
/ 17 февраля 2012

С каким языком программирования вы знакомы?

Будучи парнем из Python, я бы познакомился с urllib2, клиентской библиотекой HTTP и модулем os, который может обрабатывать файловую систему (вывести список файлов в каталоге, открыть указатель файла для POSTing вфайл в Solr).Также актуален тип данных set, который можно использовать для сравнения документов в индексах FS и Solr.

Итак,

  1. научиться POST в богатых документах Solr(используя библиотеку Solr или клиентскую библиотеку HTTP)
  2. сделать логику для получения всех имен документов из Solr и каталога
  3. загрузить все отсутствующие / измененные документы в Solr.
...