Я делаю паука, который будет сканировать весь сайт при первом запуске и сохранит данные в моей базе данных.
Но я буду продолжать запускать этот паук еженедельно, чтобы получать обновления просканированного сайтав моей базе данных, и я не хочу, чтобы scrapy сканировал страницы, которые уже присутствуют в моей базе данных. Как этого добиться, я сделал два плана:
1] Сделать сканер, чтобы получить весь сайт и каким-то образом сохранитьпервый извлеченный URL-адрес в CSV-файле, а затем продолжать следовать на следующих страницах.Затем создайте еще один сканер, который начнет извлекать данные в обратном направлении, что означает, что он будет принимать входные данные из URL-адреса в csv и продолжит работать до тех пор, пока не выйдет прежняя страница таким образом. Я получу данные, но URL-адрес в csv будет сканироваться дважды.
2] Создать сканер, который проверит состояние, если данные находятся в базе данных, а затем остановится, возможно ли это?Это будет самый продуктивный путь, но я не могу найти выход.Может быть, создание файлов журналов может помочь каким-то образом?
Обновление Сайт - это блог, который часто обновляется и сортируется как последний пост в топовой манере