Я настроил Nutch с db.fetch.interval.default 60000, чтобы я мог ползти каждый день. Если я этого не сделаю, он не будет даже смотреть на мой сайт, когда я ползаю на следующий день. Но когда я выполняю сканирование на следующий день, каждая страница, которую он получил вчера, получает код ответа 200, указывающий, что он не использует дату предыдущего дня в «If-Modified-Since». Разве это не должно пропускать выборку страниц, которые не изменились? Есть ли способ заставить это сделать это? Я заметил ProtocolStatus.NOT_MODIFIED в Fetcher.java, поэтому я думаю, что он должен быть в состоянии сделать это, не так ли?
Кстати, это вырезано и вставлено из conf / nutch-default.xml из текущего транка:
<!-- web db properties -->
<property>
<name>db.default.fetch.interval</name>
<value>30</value>
<description>(DEPRECATED) The default number of days between re-fetches of a page.
</description>
</property>
<property>
<name>db.fetch.interval.default</name>
<value>2592000</value>
<description>The default number of seconds between re-fetches of a page (30 days).
</description>
</property>