Поле "Содержание" Solr против поля "_text_" - PullRequest
1 голос
/ 18 октября 2019

Мне интересно, в чем разница между полем контента и полем _text_. У меня была проблема, когда я проиндексировал все свои документы / PDF-файлы, но по какой-то причине я не смог получить доступ к фактическому тексту / информации в этих документах / PDF-файлах. Я заметил, что у меня нет поля «контент», поэтому я только что создал его и в настоящее время переиндексирую. Однако я заметил, что у меня есть поле _text_, в котором сохранено = false. Оба эти поля берут весь текст из документов / PDF?

1 Ответ

0 голосов
/ 18 октября 2019

_text_ - это поле, определенное по умолчанию на новом ядре Solr (см. https://lucene.apache.org/solr/guide/7_5/schemaless-mode.html).

Файл managed-schema по умолчанию в новом ядре Solr не показывает ничего, указывающего, чтооно заполнено чем-то, поэтому я подозреваю, что вам нужно его заполнить.

Поле _text_ можно использовать для выгрузки копии всего текста в документе, но это то, что вам нужноdo (заполнение поля _text_ вручную или использование copyFields.)

Тот факт, что _text_ проиндексирован, но не сохранен, означает, что вы можете искать текст внутри него (потому что он проиндексирован), новы не можете получить и отобразить его значение для пользователя (поскольку оно не сохраняется).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...