Я новичок в Nutch и не совсем уверен, что здесь происходит. Я запускаю Nutch, и он сканирует мой веб-сайт, но, похоже, игнорирует URL-адреса, содержащие строки запроса. Я закомментировал фильтр на странице crawl-urlfilter.txt, поэтому теперь он выглядит так:
# skip urls with these characters
#-[]
#skip urls with slash delimited segment that repeats 3+ times
#-.*(/[^/]+)/[^/]+\1/[^/]+\1/
Итак, я думаю, что я фактически удалил любой фильтр, поэтому я говорю Натчу принять все URL, которые он находит на моем сайте.
У кого-нибудь есть предложения? Или это ошибка в Nutch 1.2? Должен ли я обновить до 1.3, и это исправит эту проблему, я имею? ИЛИ я что-то не так делаю?