Как уже отмечалось, на самом деле не самая лучшая идея - решить эту проблему с помощью RegEx.Однако, если вы хотите попрактиковаться или вам действительно нужно, вы можете сделать точное совпадение между ""
, где присутствуют ваши URL.Вы можете связать их слева, используя scr
, href
или любые другие фиксированные компоненты, которые у вас могут быть.Вы можете просто использовать | и перечислить их в первую группу ()
.
RegEx 1 для HTML-URL
Этот RegEx может небудет правильным решением, но оно может дать вам представление о том, как вы можете подойти к решению этой проблемы с помощью RegEx:
(src=|href=)(\\")([a-zA-Z\\\/0-9\.\:_-]+)(")
Создается четыре группы, чтобы упростить ее обновление, и группа $3
может быть вашими желаемыми URL.Вы можете добавить любые символы, которые ваши URL могут иметь в третьей группе.
RegEx 2 для URL-адресов как в HTML, так и в других форматах
Для захвата других URL-адресов, отличных от HTML, вы можете обновить его подобно this RegEx :
(src=\\|href=\\|pageLink\x22:|previousPage\x22:|nextUrl\x22:)(")([a-zA-Z\\\/0-9\.\:_-]+)(")
, где \x22
означает ", который выЯ могу просто заменить его. Я только что добавил \x22
, чтобы вы могли видеть те ", где ваши целевые URL расположены между:
Второй RegEx также имеет четыре группы, где целевая группа - $3
.Вы также можете упростить или DRY , если хотите.