У меня есть поисковая система, которая обслуживает около 700 000 URL.Сканирование выполняется с использованием Scrapy, и все пауки планируются с помощью DeltaFetch, чтобы ежедневно получать новые ссылки.
Сложность, с которой я сталкиваюсь, - обработка неработающих ссылок.
У меня трудное времянайти хороший способ периодически сканировать и удалять неработающие ссылки.Я думал о нескольких решениях:
- Разработка скрипта на Python с использованием request.get, для проверки каждого URL-адреса и удаления всего, что возвращает статус 404.
- Использованиесторонний инструмент, такой как https://github.com/linkchecker/linkchecker,, но я не уверен, что это лучшее решение, так как мне нужно проверить только список URL, а не веб-сайт.
- Использование паука-скрапа для удаления этого списка URL,и вернуть любые URL, которые выдают ошибку.Я не совсем уверен в этом, так как знаю, что scrapy имеет тенденцию к превышению времени ожидания при сканировании большого количества URL-адресов в разных доменах, поэтому я так полагаюсь на deltafetch
Есть ли у вас какие-либо рекомендации /лучшая практика для решения этой проблемы?
Большое спасибо.
Редактировать: Я забыл дать одну точность: я пытаюсь "проверить" эти 700 тысяч URL, а не сканировать их.на самом деле эти 700 тысяч URL-адресов являются результатом сканирования около 2500 тысяч доменов.