Я использую Storm Crawler 1.10 и Elastic Search 6.3.x.Например, у меня есть основной веб-сайт https://www.abce.org
, и у него есть подстраницы, такие как https://abce.org/def
и https://abce.org/ghi
.Я хочу специально сканировать страницы под https://www.abce.org/ghi
.
Мой начальный URL-адрес https://www.abce.org/ghi/
.
В настоящее время я применяю ниже различные фильтры регулярных выражений каждый раз.
+^https:\/\/www.abce.org\/ghi*
+^(?:https?:\/\/)www.abce.org\/ghi(.+)*$
+^(?:https?:\/\/)?(?:www\.)?abce\.[a-zA-Z0-9.\S]+$
Я проверил свои выражения регулярных выражений regexr его шоу действительны.Но когда я проверяю statusindex, отображается только обнаруженный URL-адрес семени и ничего больше.