красивый URL разбора супа из грязного вывода - PullRequest
0 голосов
/ 25 апреля 2018

У меня есть красивый код супа, который выглядит следующим образом:

 for item in beautifulSoupObj.find_all('cite'):
            pagelink.append(item.get_text())

проблема в том, что HTML-код, который я пытаюсь проанализировать, выглядит следующим образом:

<cite>https://www.<strong>websiteurl.com/id=6</strong></cite>

Мой текущий селектор вышеполучит все, включая теги strong.

Таким образом, как я могу анализировать только:

https://www.websiteurl.com/id=6

Примечание <cite> появляется несколько раз по всей странице, и я хочураспакуйте и распечатайте все.

Спасибо.

1 Ответ

0 голосов
/ 25 апреля 2018

Извлечение только текстовой части легко, как сделать .text на объекте.Мы можем использовать базовые BeautifulSoup методы для обхода иерархии дерева.

Полезное объяснение, как это сделать: ЗДЕСЬ

from bs4 import BeautifulSoup

html = '''<cite>https://www.<strong>websiteurl.com/id=6</strong></cite>'''


soup = BeautifulSoup(html, 'html.parser')

print(soup.cite.text)
# is the same as soup.find('cite').text
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...