Apache Solr - сами документы хранятся отдельно от индекса? - PullRequest
1 голос
/ 06 августа 2010

Я пытался исследовать, как работает solr, когда на него отправляются документы типа doc или pdf. Я хочу знать, отправляю ли я pdfs в solr, в конечном итоге он также сохраняет файл pdf вместе с индексом, сгенерированным после анализа файла pdf?

Спасибо,

-Keshav

1 Ответ

4 голосов
/ 06 августа 2010

Solr (Lucene) сам по себе не «сохраняет PDF-файл».Однако он может хранить текстовое содержимое PDF-файла, извлеченного из PDF-файла, с использованием экстрактора текста, такого как Tika (если поле действительно помечено как сохраненное в схеме).

Если вы хотите сохранить PDF-файл целиком, вам необходимо преобразовать PDF-файл в (например) представление Base64 и сохранить строку base64 в виде поля «Сохранено».Поэтому при доступе к документу вы конвертируете обратно из Base64 в PDF.

...