Можем ли мы сказать Solr / Lucene max chars анализировать для поиска? - PullRequest
0 голосов
/ 24 августа 2010

У меня проблема с тем, что в моих индексных файлах lucene один документ может содержать большой текст. теперь, когда я ищу один из этих огромных текстовых документов, lucene / solr не фильтрует никаких результатов, даже если в тексте документа присутствует искомое условие. причина, я думаю, может быть большое количество символов в тексте документа? если да, то как мы могли бы сказать solr / lucene, сколько символов нужно проанализировать во время поиска, объясните

Я использую Solr 1.4.1 может любой

Спасибо Ахсан

Ответы [ 2 ]

2 голосов
/ 24 августа 2010

Lucene может обрабатывать огромные документы без проблем.Кажется маловероятным, что сам размер документа является проблемой.Используйте инструмент типа Luke , чтобы просмотреть индекс и посмотреть, какие термины связаны с некоторыми из этих больших документов.

1 голос
/ 26 августа 2010

Кроме того, вы изменили параметр maxFieldLength в solrconfig.xml?Я тестирую индексирование Библии, на 25 МБ данных и с maxFieldLength 10 000, который является значением по умолчанию, только первые 10 000 токенов когда-либо анализируются, что приводит к приблизительно 2000 уникальных терминов для моего документа.

Если вы используете Lucene напрямую, есть пара параметров для maxFieldLength, у вас может быть «неограниченный» и, следовательно, получение всего.Проверьте JavaDocs для того, как установить maxFieldLength.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...