Я очень новичок в программировании на Python.Акцент на ОЧЕНЬ.Я пытаюсь настроить свой первый проект очистки веб-страниц (для курирования новостных статей).
Мне уже удалось очистить сайт новостей и создать цикл, который организует результаты так, как я хочу.Моя проблема в том, что я планирую очищать веб-страницу один раз в день, но только для публикаций, которые были опубликованы в тот же день.Я не хочу их всех, потому что это означало бы, что я получу много повторений.
Я знаю, что это как-то связано с преобразованием даты через модуль datetime (с оператором if), ноя не мог найти способ заставить его работать.
В html, это пример того, как отображается дата:
<time datetime="2019-02-24T10:30:46+00:00">Feb 24, 2019 at 10:30</time>
Вот чтоУ меня так далеко:
from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup
from datetime import datetime
my_url = "https://www.coindesk.com/category/business-news/legal"
# Opening up the website, grabbing the page
uFeedOne = uReq(my_url, timeout=5)
page_one = uFeedOne.read()
uFeedOne.close()
# html parser
page_soup1 = soup(page_one, "html.parser")
# grabs each publication block
containers = page_soup1.findAll("a", {"class": "stream-article"} )
for container in containers:
link = container.attrs['href']
publication_date = "published on " + container.time.text
title = container.h3.text
description = "(CoinDesk)-- " + container.p.text
print("link: " + link)
print("publication_date: " + publication_date)
print("title: " + title)
print("description: " + description)