Beautifullsoup: Как получить содержимое тега <a>, который находится внутри <h1>? - PullRequest
0 голосов
/ 16 ноября 2018

Я пытался извлечь имя из профиля в твиттере, единственная проблема, с которой я столкнулся, это то, что Beautifulsoup захватил весь элемент. Я пытался {"class":} указать элемент, но всякий раз, когда я делаю это, это приводит к получению

AttributeError: у объекта 'NoneType' нет атрибута 'text' error.

Мой код:

url = "https://twitter.com/barackobama"
html_doc = urllib.request.urlopen(url)
soup = BeautifulSoup(html_doc, 'lxml')

name = soup.find('h1').text
print(name)

1 Ответ

0 голосов
/ 16 ноября 2018

Если вы хотите получить текст из дочерней ссылки заголовка вместо полного текста заголовка, попробуйте

url = "https://twitter.com/barackobama"
html_doc = urllib.request.urlopen(url)
soup = BeautifulSoup(html_doc, 'lxml')

name = soup.find('h1').a.text
print(name)
# 'Barack Obama'
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...