Как отключить повышение страниц при индексации? - PullRequest
0 голосов
/ 20 января 2020

Nutch по умолчанию включает плагин scoring-opic. Насколько я понимаю, плагин скоринга отвечает за настройку оценки каждого URL в crawldb. Эта оценка будет использоваться двумя способами:

  1. Во время создания нового сегмента (списка выборки) с -topN оценка определяет, какие URL будут частью списка выборки (эти URL с самые высокие баллы будут частью списка извлечения).
  2. Во время индексации в Solr с помощью плагина indexer-solr оценка будет использоваться для установки ускорения документа, индексированного в Solr.

Пожалуйста, исправьте меня, если я ошибаюсь по поводу любого из вышеперечисленных.

Для моего случая использования:

  1. Я хочу отключить повышение при индексации в Solr.

  2. Поскольку я сканирую только несколько URL-адресов, и я не хочу, чтобы ссылки с / на каждый отдельный URL-адрес влияли на оценку. Например, если есть ссылка от http://siteA.com до http://siteB.com, оценка siteB должна быть затронута , а не . Принимая во внимание, что если есть ссылка от http://siteA.com/first до http://siteA.com/second, я хочу, чтобы оценка для http://siteA.com/second увеличилась.

Какую настройку можно настроить для достижения sh этих двух цели?

1 Ответ

0 голосов
/ 22 января 2020

Что касается вашего первого вопроса, вы можете удалить поле boost из сопоставления Solr Index Writer (взгляните на https://cwiki.apache.org/confluence/display/nutch/IndexWriters#Mapping_section). Во избежание отправки поля в Solr.

Что касается оценки URL-адресов для внутренних / внешних ссылок, вы можете попробовать изменить конфигурацию оценки в файле nutch-site.xml. По умолчанию обе внутренние / внешние ссылки установлены на 1.

...