У меня есть вопрос из двух частей.
Во-первых, я пишу веб-скребок, основанный на пауке CrawlSpider в Scrapy.Я стремлюсь очистить веб-сайт, на котором есть тысячи записей (возможно, сотни тысяч).Эти записи скрыты в 2-3 слоя от стартовой страницы.Таким образом, в основном я запускаю паука на определенной странице, сканирую, пока не находит определенный тип записи, а затем анализирую HTML.Что мне интересно, так это то, какие существуют методы, позволяющие моему пауку не перегружать сайт?Возможно, есть способ сделать что-то пошаговое или поставить паузу между различными запросами?
Во-вторых, и связан ли он с Scrapy, чтобы проверить сканер без чрезмерного стресса на сайте?Я знаю, что вы можете убить программу во время ее работы, но есть ли способ заставить скрипт остановиться после нажатия чего-то вроде первой страницы, на которой есть информация, которую я хочу почистить?
Любые советы или ресурсы будут очень полезныоценили.