Постоянно запускайте BeautifulSoup web scrape и показывайте последние изменения в заголовках - PullRequest
0 голосов
/ 31 октября 2019

Я использую Python в Pycharm. Я слежу за новостями на политическом сайте NY Times. Прямо сейчас мой кодекс позволяет мне видеть последнюю статью в политике NY Times. Я хотел бы, чтобы код работал непрерывно, и печатать последний заголовок только при появлении новой статьи. Как бы я поступил так?

Вот мой код:

import requests
from bs4 import BeautifulSoup

url = "https://www.nytimes.com/section/politics"
r = requests.get(url)
soup = BeautifulSoup(r.content, "lxml")
article = soup.find('h2', class_='css-1j9dxys e1xfvim30').text
print(article)

1 Ответ

0 голосов
/ 31 октября 2019
import requests
from bs4 import BeautifulSoup
import time

article = ""
time_between_refresh = 900  #15 minutes

while True:
    url = "https://www.nytimes.com/section/politics"
    r = requests.get(url)

    soup = BeautifulSoup(r.content, "lxml")

    new_article = soup.find('h2', class_='css-1j9dxys e1xfvim30').text

    if article != new_article:
        print(article)
        article = new_article

    time.sleep(time_between_refresh)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...