Nutch выдает проблемы с веб-сайтом crwaling, где URL-адрес отличается только в терминах параметров - PullRequest
0 голосов
/ 10 ноября 2009

Я использую Nutch для сканирования веб-сайтов и, как ни странно, для одного из моих веб-сайтов сканирование Nutch возвращает только два URL-адреса, URL-адрес домашней страницы (http://mysite.com/) и один другой.

URL-адреса моего веб-сайта в основном имеют такой формат

http://mysite.com/index.php?main_page=index&params=12

http://mysite.com/index.php?main_page=index&category=tub&param=17

т.е. URL-адреса отличаются только параметрами, добавляемыми к URL-адресу (часть "http://mysite.com/index.php?" является общей для всех URL-адресов)

Неужели Натч не может сканировать такие веб-сайты?

Какие настройки Nutch следует выполнить для сканирования таких сайтов?

1 Ответ

1 голос
/ 10 ноября 2009

Я исправил проблему. Это было связано с фильтром URL, установленным как

пропустить URL-адреса, содержащие определенные символы в качестве вероятных запросов и т. Д.

- [?! * @ =]

Я прокомментировал этот фильтр и URL-адреса draw crawle dall:)

...