Расшифровка веб-страницы с помощью BeautifulSoup и запросов - PullRequest
0 голосов
/ 12 апреля 2020

Я впервые пробую это, так что будьте осторожны ...: -)

После этого:

Я использую принятый ответ в качестве своей базы.

Мой код:

import requests
from bs4 import BeautifulSoup
from urllib.request import urlopen

base_url = 'https://www.nytimes.com/'
r = requests.get(base_url)
soup = BeautifulSoup(urlopen(base_url), features="lxml")

get_titles = soup.find_all(class_="css-6n7j50")

print()
for title in get_titles:
    print(title.text)

Я вижу два супа в отладчике:

enter image description here

Но ничего не печатается.

Все, что я хочу сделать, это извлечь заголовки из base_url, отформатировать и распечатать их.

1 Ответ

1 голос
/ 12 апреля 2020

Причина, по которой печатается пустая строка, заключается в том, что при запуске

for title in get_titles:
    print(title.text)

В объекте заголовка нет текста. Атрибут text возвращает значение, которое содержится во внутренних HTML тегах и в объекте title только атрибуты тегов.

...