Nutch 1.14 - не сканируются все ссылки на странице - PullRequest
0 голосов
/ 15 февраля 2019

У меня есть гайка 1.14, работающая с Solr 6.4.2 Гайка не сканирует (прослеживает) все ссылки на странице

<property>
  <name>db.ignore.internal.links</name>
  <value>false</value>
</property>
<property>
  <name>db.ignore.external.links</name>
  <value>false</value>
</property>

1 Ответ

0 голосов
/ 16 февраля 2019

Здесь очень много возможностей, в файле nutch-site.xml есть много разных свойств.

Вы проверили это:

<property>
   <name>db.max.outlinks.per.page</name>
   <value>100</value>
   <description>The maximum number of outlinks that we'll process for a page.
       If this value is nonnegative (>=0), at most db.max.outlinks.per.page outlinks
       will be processed for a page; otherwise, all outlinks will be processed.
   </description>
</property>
...