Я пытаюсь получить URL-адреса, не относящиеся к http (s), из тега привязки.Мне нужно сопоставить весь тег привязки, если такой URL-адрес найден.
Пример:
Это должно соответствовать: <a href="example.com/index.html"> bla</a>
Это не должно совпадать: <a href="https://www.google.com/">bla2 </a>
Мне уже удалось построить это регулярное выражение:
(\<a[\s\S]*?)(?<=href)(?:(=[\"\'])|(=))(?!(http[s]?)|(ww[w]?)|(#)|(\/\/))
(?P<url>[\S]*?)(?=([\"\'])|(\s))([\s\S]*?\>)
Но это дает мне совпадение даже с тем, что с HTTP.
С этим регулярным выражением:(?<=href=[\"\'])(?!(http[s]?)|(ww[w]?))(?P<url>[\S]+)(?=[\"\'])
Я могу получить только URL, не относящийся к http, но мне нужно, чтобы все содержимое тега <a>
также соответствовало.
Любые предложения будут полезны.Рад, если это может быть улучшено.PS: не могу использовать Beautifulsoup.Поэтому, пожалуйста, предложите лучшее регулярное выражение для моей проблемы.