Solr Index PDF документы и опубликовать их на удаленном сервере - PullRequest
1 голос
/ 26 июня 2011

Привет, я наивный пользователь, когда дело доходит до Solr. Пожалуйста, объясните мне следующие препятствия.

1) Solr Index PDF-документы

Решение опробовано

Я использовал tika-app 0.9.jar для извлечения содержимого из входных PDF-файлов в текстовый файл. Сейчас я пытаюсь написать код Java для индексирования документов в Solr.

2) Опубликовать их на удаленном сервере

Мне нужно отправить документы или индекс на центральный удаленный сервер. Можно ли использовать команду curl.

С уважением Баладжи.

Ответы [ 2 ]

2 голосов
/ 26 июня 2011

1) Solr Index PDF документы - я полагаю, что Solr сделает это за вас. Вы можете использовать http-интерфейс Solr или SolrJ .2) Разместите индекс на удаленном сервере - Репликация Solr может соответствовать требованиям.

0 голосов
/ 01 июля 2011

Предполагая, что PDF-файлы находятся на веб-сервере, вы можете использовать Nutch для их выборки и анализа, а затем передать индекс в Solr через его HTTP-интерфейс.

...