Так что я использую https://github.com/bartdag/pylinkvalidator,, похоже, отличный инструмент для поиска 404 на странице. Но на сайте, который я сканирую, 404 перенаправлены на симпатичную sorry for 404
страницу. поэтому скрипт сканирования не обнаруживает исходную ссылку 404.
Я написал небольшой скрипт, который печатает журналы исходной ссылки 302 и целевой ссылки, но она берет ссылку по отдельности, мне нужно сканировать весь сайт, как pylinkvalidator
.
этот скрипт делает ссылку отдельно, но должен сканировать весь сайт
import requests
link = 'https://example.com/1234sdsd'
r = requests.get(link, allow_redirects=False)
print(link,r.status_code, r.headers['Location'])
Даже другие инструменты хороши, как селен, но я думаю, что у него будет та же проблема.