Сначала я извлекаю все URL-адреса статей из ленты RSS и проверяю наличие дубликатов в этом списке.Затем я хочу сравнить эти уникальные URL-адреса статей с CSV-файлом старых URL-адресов статей, чтобы избежать дублирования со списком CSV.Я только хочу распечатать новые URL, которые не совпадают со старыми URL в CSV.
У меня проблемы с последней частью, любая помощь приветствуется!
import requests
from bs4 import BeautifulSoup
import csv
feed_urls = ["https://www.example.com/rss"]
with open("Old_Articles.csv", "r", encoding="utf-8") as r:
old_articles = csv.reader(r, delimiter=",")
for url in feed_urls:
response = requests.get(url)
html_source = response.text
soup = BeautifulSoup(html_source, "xml")
new_articles = set()
for link in soup.findAll("atom:link"):
new_articles.add(link.get("href"))
for link in new_articles:
if link not in old_articles:
print("Not Matched")
else:
print("Matched")