У меня есть красивый код супа, который выглядит следующим образом:
for item in beautifulSoupObj.find_all('cite'):
pagelink.append(item.get_text())
проблема в том, что HTML-код, который я пытаюсь проанализировать, выглядит следующим образом:
<cite>https://www.<strong>websiteurl.com/id=6</strong></cite>
Мой текущий селектор вышеполучит все, включая теги strong
.
Таким образом, как я могу анализировать только:
https://www.websiteurl.com/id=6
Примечание <cite>
появляется несколько раз по всей странице, и я хочураспакуйте и распечатайте все.
Спасибо.