Question

Я использую Storm Crawler 1.10 и Elastic Search 6.3.x.Например, у меня есть основной веб-сайт https://www.abce.org, и у него есть подстраницы, такие как https://abce.org/def и https://abce.org/ghi.Я хочу специально сканировать страницы под https://www.abce.org/ghi.

Мой начальный URL-адрес https://www.abce.org/ghi/.

В настоящее время я применяю ниже различные фильтры регулярных выражений каждый раз.

+^https:\/\/www.abce.org\/ghi*
+^(?:https?:\/\/)www.abce.org\/ghi(.+)*$
+^(?:https?:\/\/)?(?:www\.)?abce\.[a-zA-Z0-9.\S]+$

Я проверил свои выражения регулярных выражений regexr его шоу действительны.Но когда я проверяю statusindex, отображается только обнаруженный URL-адрес семени и ничего больше.

Julien Nioche · Answer 1 · 24 октября 2018

Попробуйте FastURLFilter , который может оказаться более интуитивно понятным в использовании.Запустите топологию в режиме отладки, чтобы убедиться, что у вас есть URL-адреса, отправленные в URLFilters и что они ведут себя так, как вы ожидаете.

Перед тем, как спросить, вот совет по отладке Storm

Применение фильтра Regex к Crawler для сканирования определенных страниц

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Применение фильтра Regex к Crawler для сканирования определенных страниц

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы