Я не уверен, что правильно задаю этот вопрос, но я столкнулся с чем-то, чего я никогда раньше не видел (FWIW), и, поскольку исследования не дали ничего подобного, я запутался:
Попытка очистить определенные ссылки с этой страницы . Я прохожу обычные
r = requests.get(url)
html = r.text
soup = bs4(html, "lxml")
Пытаясь найти определенные ссылки, я делаю:
exh = soup.find_all('a')
Вывод содержит несколько URL-адресов обычного формата, но многие из них имеют эту форму (выбирается случайным образом):
exhibit103.htm
На странице Firefox эта запись выглядит следующим образом:
Обратите внимание, что эта запись не выглядит активной, но если навести на нее курсор, будет мигать действующая базовая ссылка .
То, что я считаю соответствующей частью HTML / CSS для этого раздела, выглядит следующим образом:
<td>
<div>
<a style="-sec-extract:exhibit;"href="exhibit103.htm">
<span>Amendment Two [etc.]
</span>
</a>
</div>
</td>
На мои неинформированные глаза это похоже на href
внутри другой href
/ вложенных ссылок. Итак, общий вопрос - зачем кому-то это мешать? Более важный (для меня), как я могу использовать BeautifulSoup (или любой другой метод), чтобы извлечь фактическую ссылку?