RegEx для исключения подстрок в URL - PullRequest
1 голос
/ 21 мая 2019

Я работаю над настройкой записей Hotjar для поддоменов в нашем бизнесе. Однако у меня есть проблемы, исключая подстроки этого субдомена, потому что субдомен не является фиксированной строкой.

По существу, поддомен - это страница категории. В общей сложности у нас есть около 34 различных категорий, и я хочу записать все эти категории, поскольку они в основном представляют собой одну и ту же страницу с изменениями только в некоторой копии.

Примеры URL-адресов категорий:

https://se.readly.com/products/magazines/se/celebrities_entertainment
https://se.readly.com/products/magazines/se/dagstidningar

Пример URL подстрок страниц категорий:

https://se.readly.com/products/magazines/se/dagstidningar/kvaellsposten-1
https://se.readly.com/products/magazines/se/wedding/sisters-in-law-ett-nytt-slags-broellopsmagasin
https://se.readly.com/products/magazines/se/wedding/allt-om-broellop

Пример кода, который я пробовал без успеха (очевидно):

\bse.readly.com/products/magazines/se/[a-z-_]+$

1 Ответ

0 голосов
/ 21 мая 2019

Здесь мы можем пошагово подбирать нужные URL-адреса.Возможно, мы захотим использовать группы захвата, чтобы при желании было легко получить компоненты URL.Давайте, возможно, начнем с чего-то похожего на:

^(.+?)(se.readly.com)(\/products\/magazines\/se\/)([a-z0-9-_]+)(\/[a-z0-9-_]+)$

, и мы можем уменьшить границы, которые у нас есть, если захотим.

enter image description here

DEMO

...