Уменьшение объема памяти Index для Lucene - PullRequest
0 голосов
/ 25 мая 2011

Я использую Lucene для поиска в документах HTML.У меня проблема с увеличенным размером индексных файлов, у меня размер HTML-файлов около 300-400 МБ, но индекс работает до 0,98 ГБ.Причину я вижу из-за уточнения у нас.Как мы индексируем одно и то же содержимое для четырех различных полей, что, как я полагаю, является проблемой (мы используем одно и то же содержимое, одно с учетом регистра и другое в противном случае, одно с учетом регистра со специальными символами, а другое - в противном случае).уменьшить размер индекса?Сохраняя те же требования?Есть ли другой способ индексации и поиска по-разному для поддержки всех?

1 Ответ

1 голос
/ 25 мая 2011

Полагаю, ваша проблема в том, что вы храните эти поля, а не просто их индексируете. Итак, решение таково: не храните их.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...