Solr Нет поля «Содержимое» в коллекции после индексации PDF / DOC - PullRequest
0 голосов
/ 17 октября 2019

У меня есть коллекция тысяч документов / PDF, и есть много полей, таких как: URL, заголовок, дата ... и т. Д. Но здесь нет поля для контента, которое выглядит так, как будто оно должно существовать, чтобы вы могли осуществлять поиск по ключевым словам всего документа, а не только по названию. Я вижу, что некоторые люди говорят, что обычно поле контента генерируется автоматически при индексации.

Как мне добавить поле содержимого, которое должно содержать весь текст в PDF / DOC? Я нахожусь на Solr 6, поэтому я знаю, что мне нужно использовать API для создания нового поля для работы с управляемой схемой. Но после этого, как мне переиндексировать мою коллекцию? И если я просто назову новое поле «контент», узнает ли Солр, что поле «контент» должно содержать весь текст в моих файлах PDF / DOC при его переиндексации?

1 Ответ

0 голосов
/ 21 октября 2019

Создание поля «контент» не сработало! Вместо этого я установил сохраненное значение = true для моего поля _text_ и все заработало.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...