Индексировать весь интранет с помощью Nutch - PullRequest
0 голосов
/ 07 февраля 2012

Я использую Nutch и хотел бы индексировать интрасеть, но как убедиться, что все в интрасети будет проиндексировано?

Спасибо.

1 Ответ

0 голосов
/ 19 февраля 2012

Если вам известны все URL-адреса интрасети, напишите файл robots.txt (или эквивалентную страницу со всеми URL-адресами и укажите на нее сканер).

Если вы этого не сделаете, вы никогда не сможете быть уверенными в том, что просканировали все URL-адреса, потому что вы не можете проверить это после сканирования.

В последнем случае лучший шанс - выполнить сканирование на максимальной глубине.

Привет

...