Я использую Nutch для сканирования большого сайта.
Веб-страницы создаются программой CGI. URL большинства веб-страниц содержит такие выражения, как ?id=2323&title=foo
.
Я хочу сканировать эти веб-страницы, так как они содержат много полезной информации.
Однако проблема, с которой я сталкиваюсь, состоит в том, что на этом сайте есть календарь. Некоторые похожие на даты веб-страницы генерируются тоже. Это означает, что Nutch будет пытаться сканировать некоторые невинные веб-страницы, такие как year=2030&month=12
.
Это довольно глупо.
Как мне избежать такой ловушки в Натче? Написание многих регулярных выражений?