Question

Это вопрос новичка Solr - тем не менее, для меня очень важно понять, как работает Solr и подходит ли он для проекта.

Я хочу индексировать двоичные документы, то есть документы MS-Office и PDF-файлы.Я понимаю, что Solr может индексировать содержимое этих документов, и я могу создавать запросы для получения значений и полей, которые я в результате возвращаю.Мой вопрос: что происходит с PDF (или любым документом) после его сканирования?На самом ли деле он сохранен или полностью удален, и могу ли я получить ссылку / ссылку на исходный документ вкл.местоположение (путь) назад от solr или я должен передать эту информацию во время подачи документа?

Может кто-нибудь помочь мне понять это, пожалуйста?

kasdega · Answer 1 · 08 июля 2011

Вы можете индексировать все, что хотите в принципе, и SOLR позволит вам искать его и возвращать результаты. Например, мы используем Nutch для индексации нашего веб-сайта И у нас есть собственные скрипты Groovy, которые извлекают данные из базы данных и создают индекс SOLR.

Важной частью является то, как вы строите свои индексы. Если вы предоставите URL-адрес или другой указатель ресурса, чтобы иметь возможность ссылаться на ваши файлы, тогда SOLR сможет вернуть эту информацию в полезную нагрузку результатов.

Ссылка на оригинальный документ сохранилась?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Ссылка на оригинальный документ сохранилась?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов