Применение фильтра Regex к Crawler для сканирования определенных страниц - PullRequest
0 голосов
/ 23 октября 2018

Я использую Storm Crawler 1.10 и Elastic Search 6.3.x.Например, у меня есть основной веб-сайт https://www.abce.org, и у него есть подстраницы, такие как https://abce.org/def и https://abce.org/ghi.Я хочу специально сканировать страницы под https://www.abce.org/ghi.

Мой начальный URL-адрес https://www.abce.org/ghi/.

В настоящее время я применяю ниже различные фильтры регулярных выражений каждый раз.

  1. +^https:\/\/www.abce.org\/ghi*
  2. +^(?:https?:\/\/)www.abce.org\/ghi(.+)*$
  3. +^(?:https?:\/\/)?(?:www\.)?abce\.[a-zA-Z0-9.\S]+$

Я проверил свои выражения регулярных выражений regexr его шоу действительны.Но когда я проверяю statusindex, отображается только обнаруженный URL-адрес семени и ничего больше.

1 Ответ

0 голосов
/ 24 октября 2018

Попробуйте FastURLFilter , который может оказаться более интуитивно понятным в использовании.Запустите топологию в режиме отладки, чтобы убедиться, что у вас есть URL-адреса, отправленные в URLFilters и что они ведут себя так, как вы ожидаете.

Перед тем, как спросить, вот совет по отладке Storm

...