Я решил превратить свой комментарий в ответ.
Я бы посоветовал вам не хранить ваши текстовые данные в Solr / Lucene.Индексируйте данные только для поиска и сохраняйте уникальный идентификатор или URL-адрес для идентификации документа.Содержимое документа следует извлекать из отдельной системы хранения.
Solr / Lucene оптимизированы для поиска.Они не являются вашим хранилищем данных или базой данных, и их не следует использовать таким образом.Когда вы храните в Solr больше данных, чем необходимо, вы оказываете негативное влияние на всю поисковую систему.Вы увеличиваете размер индексов, увеличиваете время репликации между ведущими и ведомыми устройствами, реплицируете данные, для которых вам нужна только одна копия, и тратите кэш-память на кеши документов, которые следует использовать для ускорения поиска.Я бы предложил 2 вещи.
Во-первых, оптимально, удалите текстовое хранилище целиком из поискового индекса.Извлечение текста предварительного просмотра и всего текста из вторичной системы, которая оптимизирована для хранения документов, например, файлового сервера.
Во-вторых, неоптимально, сохраните только текст предварительного просмотра в поисковом индексе.Храните весь документ в другом месте, например на файловом сервере.