Я использую Nutch для сканирования веб-сайтов и, как ни странно, для одного из моих веб-сайтов сканирование Nutch возвращает только два URL-адреса, URL-адрес домашней страницы (http://mysite.com/) и один другой.
URL-адреса моего веб-сайта в основном имеют такой формат
http://mysite.com/index.php?main_page=index¶ms=12
http://mysite.com/index.php?main_page=index&category=tub¶m=17
т.е. URL-адреса отличаются только параметрами, добавляемыми к URL-адресу (часть "http://mysite.com/index.php?" является общей для всех URL-адресов)
Неужели Натч не может сканировать такие веб-сайты?
Какие настройки Nutch следует выполнить для сканирования таких сайтов?
Я исправил проблему. Это было связано с фильтром URL, установленным как
- [?! * @ =]
Я прокомментировал этот фильтр и URL-адреса draw crawle dall:)