Извлечение ссылки из href внутри другого href - вложенные ссылки (?) - PullRequest
1 голос
/ 12 апреля 2019

Я не уверен, что правильно задаю этот вопрос, но я столкнулся с чем-то, чего я никогда раньше не видел (FWIW), и, поскольку исследования не дали ничего подобного, я запутался:

Попытка очистить определенные ссылки с этой страницы . Я прохожу обычные

r = requests.get(url)
html = r.text
soup =  bs4(html, "lxml")

Пытаясь найти определенные ссылки, я делаю:

exh = soup.find_all('a')

Вывод содержит несколько URL-адресов обычного формата, но многие из них имеют эту форму (выбирается случайным образом):

exhibit103.htm

На странице Firefox эта запись выглядит следующим образом:

enter image description here

Обратите внимание, что эта запись не выглядит активной, но если навести на нее курсор, будет мигать действующая базовая ссылка .

То, что я считаю соответствующей частью HTML / CSS для этого раздела, выглядит следующим образом:

<td>
  <div>
      <a style="-sec-extract:exhibit;"href="exhibit103.htm">
       <span>Amendment Two [etc.]
           </span>
      </a>
   </div>
</td>

На мои неинформированные глаза это похоже на href внутри другой href / вложенных ссылок. Итак, общий вопрос - зачем кому-то это мешать? Более важный (для меня), как я могу использовать BeautifulSoup (или любой другой метод), чтобы извлечь фактическую ссылку?

...