Question

У меня проблема с тем, что в моих индексных файлах lucene один документ может содержать большой текст. теперь, когда я ищу один из этих огромных текстовых документов, lucene / solr не фильтрует никаких результатов, даже если в тексте документа присутствует искомое условие. причина, я думаю, может быть большое количество символов в тексте документа? если да, то как мы могли бы сказать solr / lucene, сколько символов нужно проанализировать во время поиска, объясните

Я использую Solr 1.4.1 может любой

Спасибо Ахсан

erickson · Answer 1 · 24 августа 2010

Lucene может обрабатывать огромные документы без проблем.Кажется маловероятным, что сам размер документа является проблемой.Используйте инструмент типа Luke , чтобы просмотреть индекс и посмотреть, какие термины связаны с некоторыми из этих больших документов.

Eric Pugh · Answer 2 · 26 августа 2010

Кроме того, вы изменили параметр maxFieldLength в solrconfig.xml?Я тестирую индексирование Библии, на 25 МБ данных и с maxFieldLength 10 000, который является значением по умолчанию, только первые 10 000 токенов когда-либо анализируются, что приводит к приблизительно 2000 уникальных терминов для моего документа.

Если вы используете Lucene напрямую, есть пара параметров для maxFieldLength, у вас может быть «неограниченный» и, следовательно, получение всего.Проверьте JavaDocs для того, как установить maxFieldLength.

Можем ли мы сказать Solr / Lucene max chars анализировать для поиска?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Можем ли мы сказать Solr / Lucene max chars анализировать для поиска?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов