Я использую BeautifulSoup, чтобы сделать некоторую очистку экрана.Моя проблема заключается в следующем: мне нужно извлечь конкретные вещи из абзаца.Пример:
<p><b><a href="/name/abe">ABE</a></b> <font class="masc">m</font> <font class="info"><a href="/nmc/eng.php" class="usg">English</a>, <a href="/nmc/jew.php" class="usg">Hebrew</a></font><br />Short form of <a href="/name/abraham" class="nl">ABRAHAM</a>
Из этого абзаца я могу извлечь имя ABE следующим образом:
for pFound in soup.findAll('p'):
print pFound
#will get the names
x = pFound.find('a').renderContents()
print x
Теперь моя проблема состоит в том, чтобы извлечь другое имя,в том же абзаце.
Short form of <a href="/name/abraham" class="nl">ABRAHAM</a>
Мне нужно извлечь это, только если тегу a предшествует текст «Краткая форма»
Есть идеи, как это сделать?На странице HTML есть много таких абзацев, и не все из них имеют текст «Краткая форма». Они могут содержать какой-то другой текст в этом месте.может быть полезно, но я не знаком с BeautifulSoup.Закончилось тратить довольно много времени.
Любая помощь будет оценена.Спасибо.