работает функция поиска lucene в документах большого размера? - PullRequest
0 голосов
/ 27 апреля 2010

У меня проблема при поиске с lucene.

Во-первых, в функции индексации lucene она хорошо работает с документами большого размера. например, PST-файл, почтовое хранилище Outlook. Он может построить индексный файл, включающий всю информацию .pst. Единственная проблема заключается в большом, иногда включать очень много слов.

Поэтому, когда я выполняю поиск с использованием lucene, он может обрабатывать только переднюю часть этого файла индексации, если одно слово выходит из задней части файла индексации, он не может найти это слово и в результате нет совпадений. Но когда я глупо разделяю этот индексный файл на несколько частей при отладке и поиске по каждой части, он может работать хорошо.

Итак, я хочу знать, как отделить файл индексации, какой размер должен быть ограничен поиском?

ура и жду 4 ответа.

+++++++++++++++++++++++++++++++++++++++++++++++ +++

Привет, следуйте за Coady siad, я установил длину max 2 ^ 31-1. Но результат поиска по-прежнему не может включать то, что я хочу. просто я конвертирую слово doc в массив строк [] для анализа, В одном документе содержится 79680 слов, включая пробел и любой символ. когда я ищу определенное слово, он просто возвращает 300 отсчетов, на самом деле он имеет более 300 результатов. По той же причине, когда я ищу слово в задней части документа, оно также не может найти. ////////////// установить длину

idexwriter.SetMaxFieldLength (2147483647);

//////////////////// поиск

IndexSearcher searcher = new ndexSearcher (Program.Parameters ["INDEX_LOCATION"]. ToString ()); Хиты хиты = поисковик. Поиск (запрос);

Это мой код, как и у других. Я обнаружил проблему, когда мне нужно посчитать каждое попадание слова в документе. Поэтому я также обнаружил, что он не может найти слово в задней части документа.

Пожалуйста, помогите мне найти, есть ли где-нибудь заданная длина поисковика? как вы решаете эту проблему.

1 Ответ

5 голосов
/ 27 апреля 2010

Если вы можете получить результаты поиска только из передней части документа, то этот документ, вероятно, длиннее, чем IndexWriter maxFieldLength . Попробуйте установить большее значение (по умолчанию 10000).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...