Ссылка на оригинальный документ сохранилась? - PullRequest
0 голосов
/ 07 июля 2011

Это вопрос новичка Solr - тем не менее, для меня очень важно понять, как работает Solr и подходит ли он для проекта.

Я хочу индексировать двоичные документы, то есть документы MS-Office и PDF-файлы.Я понимаю, что Solr может индексировать содержимое этих документов, и я могу создавать запросы для получения значений и полей, которые я в результате возвращаю.Мой вопрос: что происходит с PDF (или любым документом) после его сканирования?На самом ли деле он сохранен или полностью удален, и могу ли я получить ссылку / ссылку на исходный документ вкл.местоположение (путь) назад от solr или я должен передать эту информацию во время подачи документа?

Может кто-нибудь помочь мне понять это, пожалуйста?

1 Ответ

0 голосов
/ 08 июля 2011

Вы можете индексировать все, что хотите в принципе, и SOLR позволит вам искать его и возвращать результаты. Например, мы используем Nutch для индексации нашего веб-сайта И у нас есть собственные скрипты Groovy, которые извлекают данные из базы данных и создают индекс SOLR.

Важной частью является то, как вы строите свои индексы. Если вы предоставите URL-адрес или другой указатель ресурса, чтобы иметь возможность ссылаться на ваши файлы, тогда SOLR сможет вернуть эту информацию в полезную нагрузку результатов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...