Это прямо вперед. Сохраните все ваши ранее просканированные URL в python dict. Поэтому, когда вы попытаетесь попробовать их в следующий раз, посмотрите, есть ли этот URL в dict. еще ползать.
def load_urls(prev_urls):
prev = dict()
for url in prev_urls:
prev[url] = True
return prev
def fresh_crawl(prev_urls, new_urls):
for url in new_urls:
if url not in prev_urls:
crawl(url)
return
def main():
purls = load_urls(prev_urls)
fresh_crawl(purls, nurls)
return
Приведенный выше код был набран в текстовом редакторе SO или браузере. Может иметь синтаксические ошибки. Вам также может потребоваться внести несколько изменений. Но логика есть ...
ПРИМЕЧАНИЕ: Но учтите, что некоторые сайты постоянно меняют свое содержание. Поэтому иногда вам, возможно, придется пересмотреть определенную веб-страницу (то есть тот же URL), чтобы получить обновленный контент.