Как проверить новые URL-адреса против CSV старых URL-адресов в Python, чтобы предотвратить дубликаты? - PullRequest
0 голосов
/ 05 декабря 2018

Сначала я извлекаю все URL-адреса статей из ленты RSS и проверяю наличие дубликатов в этом списке.Затем я хочу сравнить эти уникальные URL-адреса статей с CSV-файлом старых URL-адресов статей, чтобы избежать дублирования со списком CSV.Я только хочу распечатать новые URL, которые не совпадают со старыми URL в CSV.

У меня проблемы с последней частью, любая помощь приветствуется!

import requests
from bs4 import BeautifulSoup
import csv


feed_urls = ["https://www.example.com/rss"]

with open("Old_Articles.csv", "r", encoding="utf-8") as r:
    old_articles = csv.reader(r, delimiter=",")

    for url in feed_urls:
        response = requests.get(url)
        html_source = response.text
        soup = BeautifulSoup(html_source, "xml")
        new_articles = set()

        for link in soup.findAll("atom:link"):
            new_articles.add(link.get("href"))

        for link in new_articles:
            if link not in old_articles:
                print("Not Matched")
            else:
                print("Matched")
...