Поиск статей с указанным идентификатором c с помощью Beautifulsoup - PullRequest
0 голосов
/ 16 апреля 2020

Вот снимок экрана раздела, который я хочу очистить в Интернете, я сделал снимок экрана, потому что я просто хотел дать общую картину

Я пытаюсь очистить веб-сайт определенного раздела сайт BB C, это раздел последних обновлений. Это выглядит примерно так введите описание изображения здесь

Я не уверен, что положить для findAll в Beautifulsoup. Используя знания, которые у меня уже есть, я попробовал bsObj.findAll(id="latest-updates"), что, конечно, не сработало. Если кому-то нужна ссылка на последнее обновление, она будет здесь https://www.bbc.co.uk/news/uk, а прокрутка вниз покажет вам последнее обновление

Я пытаюсь найти способ получить все ссылки в последнем обновлении. обновить раздел с помощью идентификатора возможно? Если правильный путь использует id = latest-updates, кто-то может указать мне на то, что я сделал неправильно, или если я совершенно не прав, скажите мне, какой класс, id или div я должен найти ссылки в этом конкретном c последнем обновлении Я должен искать.
Извините, если это слишком много конкретного c вопроса и
Спасибо за любую помощь относительно вопроса

Ответы [ 2 ]

0 голосов
/ 16 апреля 2020

Если вы ищете ссылки на заголовки последних обновлений, я думаю, вам следует искать «a» и класс заголовков. Если я не ошибаюсь, это должно быть правильно findAll:

 findAll("a", {"class": "qa-heading-link lx-stream-post__header-link"})
0 голосов
/ 16 апреля 2020

Попробуйте bsObj.findAll(attrs={"id":"latest-updates"}).

Я предполагаю, что вы проверили, что скопированный вами файл html совпадает с исходным файлом страницы.

...