Добавление параметра URL в индекс Nutch / Solr и результаты поиска - PullRequest
3 голосов
/ 27 июня 2011

Я не могу найти подсказки о том, как настроить NUTCH, чтобы НЕ фильтровать / удалять мои параметры URL.Я хочу сканировать и индексировать некоторые страницы, где много контента скрыто за одними и теми же базовыми URL-адресами (например, / news.jsp? Id = 1 /news.jsp?id=2 /news.jsp?id=3 и т. д.).

  • regex-normalize.xml удаляет только лишние элементы из URL (например, идентификатор сеанса и завершающий?)
  • regex-urlfilter.txt , кажется, имеет подстановочный знак для моего хоста (+ ^ http://$myHost/)

Пока сканирование работает нормально. Есть идеи?

ура, мана

РЕДАКТИРОВАТЬ:

Часть решения скрыта здесь:

Настройка Nutch Regex-Normalize.xml

# skip URLs containing certain characters as probable queries, etc.
-[?*!@=]

необходимо изменить. Нужно разрешить все символы, которые могут существовать в параметре URL, например '?' И '='. Новая строка выглядит как

-[*!@]

И страницы теперь сканируютсяс параметрами. Но они еще не отправлены в Solr с параметрами (Solr по-прежнему вырезает параметры из ссылок)

EDIT2:

У Nutch есть некоторые проблемы с обработкой относительных URL ('?папаRAM = значение ').Все еще застряли на этом параметре:

см. Список соответствия: http://search.lucidimagination.com/search/document/b6011a942b323ba3/problem_with_href_param_value_links

1 Ответ

1 голос
/ 01 июля 2011

Вы можете создать настраиваемое поле в фильтре Nutch, чтобы сохранить весь URL. Пока вы определяете одно и то же поле в схеме Solr с store = "true", оно будет отображаться в ваших результатах. См. WritingPluginExample-1.2 .

Дайте мне знать, если вам нужна помощь.

...