Nutch по умолчанию включает плагин scoring-opic
. Насколько я понимаю, плагин скоринга отвечает за настройку оценки каждого URL в crawldb. Эта оценка будет использоваться двумя способами:
- Во время создания нового сегмента (списка выборки) с
-topN
оценка определяет, какие URL будут частью списка выборки (эти URL с самые высокие баллы будут частью списка извлечения). - Во время индексации в Solr с помощью плагина
indexer-solr
оценка будет использоваться для установки ускорения документа, индексированного в Solr.
Пожалуйста, исправьте меня, если я ошибаюсь по поводу любого из вышеперечисленных.
Для моего случая использования:
Я хочу отключить повышение при индексации в Solr.
Поскольку я сканирую только несколько URL-адресов, и я не хочу, чтобы ссылки с / на каждый отдельный URL-адрес влияли на оценку. Например, если есть ссылка от http://siteA.com
до http://siteB.com
, оценка siteB
должна быть затронута , а не . Принимая во внимание, что если есть ссылка от http://siteA.com/first
до http://siteA.com/second
, я хочу, чтобы оценка для http://siteA.com/second
увеличилась.
Какую настройку можно настроить для достижения sh этих двух цели?