Как мне получить основной заголовок на cnn? - PullRequest
1 голос
/ 07 июля 2019

enter image description here

Пытаюсь схватить только «Посол называет Трампа неумелым», но я не могу приземлиться в этом районе.Я попытался вытащить "h2" и класс, а также "сильные теги, но, похоже, ничего не могу найти. Код ниже я оставил, как есть, это единственное, что я могу отобразить.

soup = BeautifulSoup(data.text,'html.parser')
    for rows in soup.find_all('li'):
        for x in soup.findChildren('div'):
            print(x)

1 Ответ

2 голосов
/ 07 июля 2019

Страница загружает данные динамически.Если вы проверите, по каким URL-адресам страница запрашивает (например, в Firefox Developer Tools), вы обнаружите, что данные находятся в разных URL-адресах.К сожалению, этот URL (https://edition.cnn.com/data/ocs/section/index.html:intl_homepage1-zone-1/views/zones/common/zone-manager.izl) создается динамически:

import requests
from bs4 import BeautifulSoup

url = 'https://edition.cnn.com/data/ocs/section/index.html:intl_homepage1-zone-1/views/zones/common/zone-manager.izl'
soup = BeautifulSoup(requests.get(url).text, 'lxml')
print(soup.h2.text)

Отпечатки:

UK ambassador calls Trump 'inept' and 'insecure'
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...