Question

Я новичок в Nutch и не совсем уверен, что здесь происходит. Я запускаю Nutch, и он сканирует мой веб-сайт, но, похоже, игнорирует URL-адреса, содержащие строки запроса. Я закомментировал фильтр на странице crawl-urlfilter.txt, поэтому теперь он выглядит так:

# skip urls with these characters
#-[]

#skip urls with slash delimited segment that repeats 3+ times
#-.*(/[^/]+)/[^/]+\1/[^/]+\1/

Итак, я думаю, что я фактически удалил любой фильтр, поэтому я говорю Натчу принять все URL, которые он находит на моем сайте.

У кого-нибудь есть предложения? Или это ошибка в Nutch 1.2? Должен ли я обновить до 1.3, и это исправит эту проблему, я имею? ИЛИ я что-то не так делаю?

Abhishek · Answer 1 · 23 сентября 2016

# skip URLs containing certain characters as probable queries, etc.
#-[?*!@=]

Вы должны оставить комментарий или изменить его как:

# skip URLs containing certain characters as probable queries, etc.
-[*!@]

mana · Answer 2 · 15 августа 2011

Смотрите мой предыдущий вопрос здесь Добавление параметра URL в индекс Nutch / Solr и результаты поиска

Первое «Правка» должно ответить на ваш вопрос.

orezvani · Answer 3 · 20 августа 2013

По умолчанию сканеры не должны сканировать ссылки со строками запроса, чтобы избежать спама и фальшивых поисковых систем.

Nutch 1.2 - Почему бы не объединить URL для сканирования со строками запроса?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Nutch 1.2 - Почему бы не объединить URL для сканирования со строками запроса?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы