У меня db.max.anchor.length установлено на 5, но Nutch по-прежнему выбирает URL с длиной привязки больше 5, например: http://mysite/somepage.htm, в чем причина этого ??Я использую NUTCH-1.2.
Свойство db.max.anchor.length действует только в том случае, если вы создаете linkdb (инвертированный индекс).Для обычного сканирования не применяется ограничение размера якоря.
db.max.anchor.length
linkdb