Я не могу найти подсказки о том, как настроить NUTCH, чтобы НЕ фильтровать / удалять мои параметры URL.Я хочу сканировать и индексировать некоторые страницы, где много контента скрыто за одними и теми же базовыми URL-адресами (например, / news.jsp? Id = 1 /news.jsp?id=2 /news.jsp?id=3 и т. д.).
- regex-normalize.xml удаляет только лишние элементы из URL (например, идентификатор сеанса и завершающий?)
- regex-urlfilter.txt , кажется, имеет подстановочный знак для моего хоста (+ ^ http://$myHost/)
Пока сканирование работает нормально. Есть идеи?
ура, мана
РЕДАКТИРОВАТЬ:
Часть решения скрыта здесь:
Настройка Nutch Regex-Normalize.xml
# skip URLs containing certain characters as probable queries, etc.
-[?*!@=]
необходимо изменить. Нужно разрешить все символы, которые могут существовать в параметре URL, например '?' И '='. Новая строка выглядит как
-[*!@]
И страницы теперь сканируютсяс параметрами. Но они еще не отправлены в Solr с параметрами (Solr по-прежнему вырезает параметры из ссылок)
EDIT2:
У Nutch есть некоторые проблемы с обработкой относительных URL ('?папаRAM = значение ').Все еще застряли на этом параметре:
см. Список соответствия: http://search.lucidimagination.com/search/document/b6011a942b323ba3/problem_with_href_param_value_links