Question

Как я могу сделать Apache Tika индексировать каталог PDF и текстовые файлы, включая подкаталоги, и отправить его в Apache Solr, чтобы я мог иметь поисковую систему для содержимого этого каталога?

Любой совет, связанный сWindows или Linux это не имеет значения.Я не смог заставить это работать, потому что документация по этим двум проектам в основном предназначена для разработчиков, и это хорошо, но, тем не менее, я не могу заставить их сделать это, потому что документация расплывчата и недостаточно ясна для не Javadeveloper.

Очень просто: как мне создать поисковик, используя семейство проектов Apache Lucene, которое может индексировать и обеспечивать поиск для / home / material или c: / material или / cygdrive / c /материал

Заранее большое спасибо

Jayendra · Answer 1 · 17 февраля 2012

Solr предоставляет ExtractingRequestHandler , который помогает в индексации документов с расширенными возможностями.
В списке примеров на странице используется curl для подачи данных в Solr.
Простой скрипт, который может перебирать папки и подпапки.и выполнение команд curl может создать индекс для всех документов.
Если вы используете любой клиент для Solr, например Solrj, rsolr, вы можете легко перебирать каталог и выполнять http-URL для индексации документов.

Jesvin Jose · Answer 2 · 17 февраля 2012

С каким языком программирования вы знакомы?

Будучи парнем из Python, я бы познакомился с urllib2, клиентской библиотекой HTTP и модулем os, который может обрабатывать файловую систему (вывести список файлов в каталоге, открыть указатель файла для POSTing вфайл в Solr).Также актуален тип данных set, который можно использовать для сравнения документов в индексах FS и Solr.

Итак,

научиться POST в богатых документах Solr(используя библиотеку Solr или клиентскую библиотеку HTTP)
сделать логику для получения всех имен документов из Solr и каталога
загрузить все отсутствующие / измененные документы в Solr.

Как настроить Apache Tika и Apache Solr для индексации и поиска в каталоге файлов pdf?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как настроить Apache Tika и Apache Solr для индексации и поиска в каталоге файлов pdf?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы