Как бороться с часто меняющимся многозначным полем в Lucene / Solr? - PullRequest
1 голос
/ 05 марта 2012

В основном мы хотим иметь возможность поиска в различных подмножествах большого хранилища документов. Мы думаем об использовании многозначного поля для хранения каждого документа, подмножества которого он находится в данный момент, и фильтрации по этому полю при поиске. Проблема в том, что подмножества постоянно меняются, поэтому нам приходится часто добавлять новые подмножества и удалять старые подмножества из этого поля.

Я прочитал, что при обновлении поля в документе Solr мне необходимо обновить весь документ, а документ обновляется путем удаления старой копии и добавления новой копии. Поэтому частые обновления приводят к большому количеству удаленных копий и раздувают внутреннюю таблицу поиска, и производительность снижается.

Мой вопрос: насколько серьезна эта деградация? И есть ли лучший способ подойти к этой проблеме? В конце концов, это должно быть обычной проблемой, и тут сразу приходит на ум поиск статей с определенным тегом и поиск в любимых статьях пользователя (хотя наш собственный вариант использования более сложный).

Я немного посмотрел на ExternalFileField, но кажется, что он не поддерживает многозначные поля (надеюсь, я ошибаюсь), и слишком много разных комбинаций подмножеств, чтобы использовать одно целое число для представления комбинации (для преобразовать многозначное поле в однозначное поле).

...