Simple Nutch 1.3 / объяснение индекса Solr - PullRequest
1 голос
/ 15 сентября 2011

После долгих поисков, кажется, нет никакого прямого объяснения того, как использовать Nutch 1.3 с Solr.

У меня есть индекс Solr с другим содержимым, которое я буду использовать навеб-сайт для поиска.

Я бы хотел добавить результаты Nutch в индекс, чтобы добавить внешние сайты в поиск по сайту.

Все это работает просто отлично.

Вопрос в том, как вы освежите индекс?Нужно ли вам сначала удалить все результаты Nutch из Solr?Или Nutch позаботится об этом?Удаляет ли Nutch результаты, которые больше не действительны из индекса Solr?

Сценарии оболочки без документации или объяснения того, что они делают, не помогли ответить на эти вопросы.

Ответы [ 3 ]

0 голосов
/ 15 сентября 2011

Попробуйте корпоративный Solr от Lucidworks для тестирования / создания прототипов, в который встроен веб-сканер.

http://www.lucidimagination.com/products/lucidworks-search-platform/enterprise

Это даст вам почувствовать весь стек Lucene. У него намного лучший интерфейс, чем у любого другого программного обеспечения Java, которое я когда-либо использовал. Это радость в использовании.

0 голосов
/ 16 сентября 2011

Ну, вам нужно реализовать пошаговое сканирование в Nutch ... что зависит от вашего приложения.Некоторые люди хотят переписывать каждый день, другие каждые 3 месяца.В любом случае максимальное значение составляет 90 дней.

Общая идея состоит в том, чтобы удалить сегменты сканирования, которые старше максимального времени повторного сканирования, так как они будут избыточными в это время.И создайте свежий solrindex для использования в Solr.

Боюсь, что вам придется делать это самостоятельно в сценариях.Однажды я могу добавить в вики некоторые сценарии, которые я сделал для этого, но они не готовы для публикации в том виде, в каком они есть.

0 голосов
/ 15 сентября 2011

Внутренняя схема определяет id (= url) как уникальный ключ.При повторном сканировании URL-адрес документа будет заменен в индексе solr, когда Nutch публикует данные в solr.

...