Я пытаюсь очистить html, но, к сожалению, очень мало классов и идентификаторов. Используемые классы не согласованы от страницы к странице. На странице их несколько.
У меня есть кое-что конкретное, что мне нужно взять.
<a href="http://ExampleText.com/xyz">
и
Содержимое адресов электронной почты и URL будет меняться, но всегда будет <a href "http://ExampleText.com
и <a href="mailto:
.
Прямо сейчас я могу получить все с помощью этого кода, но я не знаю, как получить ссылки с этим конкретным текстом.
label_links = label_soup.select("div.row a")
print(label_links)
Я все еще новичок в Beautifulsoup, но я не вижу этого в литературе (пока). Любая помощь приветствуется!