Question

После долгих поисков, кажется, нет никакого прямого объяснения того, как использовать Nutch 1.3 с Solr.

У меня есть индекс Solr с другим содержимым, которое я буду использовать навеб-сайт для поиска.

Я бы хотел добавить результаты Nutch в индекс, чтобы добавить внешние сайты в поиск по сайту.

Все это работает просто отлично.

Вопрос в том, как вы освежите индекс?Нужно ли вам сначала удалить все результаты Nutch из Solr?Или Nutch позаботится об этом?Удаляет ли Nutch результаты, которые больше не действительны из индекса Solr?

Сценарии оболочки без документации или объяснения того, что они делают, не помогли ответить на эти вопросы.

mt3 · Answer 1 · 15 сентября 2011

Попробуйте корпоративный Solr от Lucidworks для тестирования / создания прототипов, в который встроен веб-сканер.

http://www.lucidimagination.com/products/lucidworks-search-platform/enterprise

Это даст вам почувствовать весь стек Lucene. У него намного лучший интерфейс, чем у любого другого программного обеспечения Java, которое я когда-либо использовал. Это радость в использовании.

millebii · Answer 2 · 16 сентября 2011

Ну, вам нужно реализовать пошаговое сканирование в Nutch ... что зависит от вашего приложения.Некоторые люди хотят переписывать каждый день, другие каждые 3 месяца.В любом случае максимальное значение составляет 90 дней.

Общая идея состоит в том, чтобы удалить сегменты сканирования, которые старше максимального времени повторного сканирования, так как они будут избыточными в это время.И создайте свежий solrindex для использования в Solr.

Боюсь, что вам придется делать это самостоятельно в сценариях.Однажды я могу добавить в вики некоторые сценарии, которые я сделал для этого, но они не готовы для публикации в том виде, в каком они есть.

Umar · Answer 3 · 15 сентября 2011

Внутренняя схема определяет id (= url) как уникальный ключ.При повторном сканировании URL-адрес документа будет заменен в индексе solr, когда Nutch публикует данные в solr.

Simple Nutch 1.3 / объяснение индекса Solr

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Simple Nutch 1.3 / объяснение индекса Solr

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы