пересчитать URL в Nutch 1.3 - PullRequest
       35

пересчитать URL в Nutch 1.3

2 голосов
/ 24 октября 2011

Я установил re_crawler для загрузки сайта каждый день. но это сайт 3 раза. какое свойство я должен установить в Nutch? спасибо.

1 Ответ

3 голосов
/ 16 января 2012

Я думаю, что вы нашли решение самостоятельно в последние месяцы, но вот ответ для сообщества. В файле nutch-default.xml определены 3 свойства:

<property>
 <name>db.default.fetch.interval</name>
 <value>30</value>
 <description>(DEPRECATED) The default number of days between re-fetches of a page.
 </description>
</property>

<property>
 <name>db.fetch.interval.default</name>
 <value>2592000</value>
 <description>The default number of seconds between re-fetches of a page (30 days).
 </description>
</property>

<property>
 <name>db.fetch.interval.max</name>
 <value>7776000</value>
 <description>The maximum number of seconds between re-fetches of a page
 (90 days). After this period every page in the db will be re-tried, no
 matter what is its status.
</description>

Что можно переопределить в файле nutch-site.xml.

...