У меня есть проект Scrapy
, который сохраняет сканирование в JOBDIR
, чтобы предотвратить сканирование уже просмотренных URL.
Моя проблема связана с тем фактом, что иногда сканирование по определенному URL-адресу было неэффективным, и мне нужно исправить паука и запустить его снова. Конечно, я не хочу повторно сканировать все URL-адреса, а только тот, который вызвал некоторые проблемы.
Я хотел бы локализовать URL-адрес в request.seen
и просто удалить его, но это невозможно, поскольку все URL-адреса закодированы.
Как я могу декодировать request.seen
файл в исходные URL-адреса?