Nutch Recrawl - Хранение сегментов обязательно или нет - PullRequest
0 голосов
/ 10 февраля 2012

Я удаляю сегменты после того, как они проиндексированы, тогда как Nutch получит время последней загрузки страниц при повторном сканировании?Нужно ли хранить их, чтобы ускорить повторное сканирование?

1 Ответ

0 голосов
/ 03 апреля 2012

Время последней выборки поддерживается crawldb, а не сегментами.Сегменты полезны только с точки зрения индексации и поиска.Хранение в любом из данных НЕ повлияет на скорость сканирования.

...