поиск по запросу со всеми полученными документами - PullRequest
0 голосов
/ 26 марта 2012

Я использовал Nutch 1.4 для сканирования веб-сайтов и проиндексировал данные для Solr 3.5. это было успешно. Я использовал Люка для проверки данных индекса и обнаружил, что было получено 1678 документов. но когда я ввел строку запроса (всего несколько ключевых слов) в интерфейсе solr для поиска, были получены все 1678 документов. это странно, поскольку большинство найденных веб-страниц вообще не содержат этих ключевых слов.

Есть идеи для этой проблемы?

Спасибо.

Гром

1 Ответ

0 голосов
/ 27 марта 2012

Хм, у людей обычно возникает проблема типа «отсутствующий документ» при поиске в Solr.У вас противоположная проблема:)

Вы сможете понять, почему это происходит сразу после того, как вы откроете свой индекс с помощью Люка.Поле поиска по умолчанию со схемой Nutch - это Content, поэтому при вводе в Solr только поискового термина это поле, в котором будет выполняться поиск.Изучите его содержимое, используя Люк.

Вам, конечно, известны следующие ценные ресурсы:
http://www.lucidimagination.com/blog/2010/09/10/refresh-using-nutch-with-solr/
http://groups.drupal.org/lucene-nutch-and-solr
http://www.mail -архив.com / Nutch-совершает @ lucene.apache.org / msg02227.html

...