Nutch Как избежать просмотра веб-страницы календаря сканирования CGI - PullRequest
0 голосов
/ 27 января 2012

Я использую Nutch для сканирования большого сайта.

Веб-страницы создаются программой CGI. URL большинства веб-страниц содержит такие выражения, как ?id=2323&title=foo.

Я хочу сканировать эти веб-страницы, так как они содержат много полезной информации.

Однако проблема, с которой я сталкиваюсь, состоит в том, что на этом сайте есть календарь. Некоторые похожие на даты веб-страницы генерируются тоже. Это означает, что Nutch будет пытаться сканировать некоторые невинные веб-страницы, такие как year=2030&month=12.

Это довольно глупо.

Как мне избежать такой ловушки в Натче? Написание многих регулярных выражений?

1 Ответ

0 голосов
/ 03 апреля 2012

Добавление шаблонов регулярных выражений в conf/regex-urlfilter.txt для специальных правил принятия или отклонения URL.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...