Nutch 1.2 - Почему бы не объединить URL для сканирования со строками запроса? - PullRequest
0 голосов
/ 13 августа 2011

Я новичок в Nutch и не совсем уверен, что здесь происходит. Я запускаю Nutch, и он сканирует мой веб-сайт, но, похоже, игнорирует URL-адреса, содержащие строки запроса. Я закомментировал фильтр на странице crawl-urlfilter.txt, поэтому теперь он выглядит так:

# skip urls with these characters
#-[]

#skip urls with slash delimited segment that repeats 3+ times
#-.*(/[^/]+)/[^/]+\1/[^/]+\1/

Итак, я думаю, что я фактически удалил любой фильтр, поэтому я говорю Натчу принять все URL, которые он находит на моем сайте.

У кого-нибудь есть предложения? Или это ошибка в Nutch 1.2? Должен ли я обновить до 1.3, и это исправит эту проблему, я имею? ИЛИ я что-то не так делаю?

Ответы [ 3 ]

2 голосов
/ 23 сентября 2016
# skip URLs containing certain characters as probable queries, etc.
#-[?*!@=]

Вы должны оставить комментарий или изменить его как:

# skip URLs containing certain characters as probable queries, etc.
-[*!@]
2 голосов
/ 15 августа 2011

Смотрите мой предыдущий вопрос здесь Добавление параметра URL в индекс Nutch / Solr и результаты поиска

Первое «Правка» должно ответить на ваш вопрос.

0 голосов
/ 20 августа 2013

По умолчанию сканеры не должны сканировать ссылки со строками запроса, чтобы избежать спама и фальшивых поисковых систем.

...