Я создаю основанный на Python веб-браузер, который собирает данные о ценах и спецификациях для продуктов с нескольких сайтов.Я хочу быть уважительным и следить за robots.txt, насколько я могу.
Допустим, задержка сканирования, определенная в файле robots.txt, составляет 10 секунд.Как это интерпретируется?Я построил свой скребок, чтобы перейти на страницу каждой категории продукта, а затем взять список всех продуктов из каждой категории, а затем перейти на страницу каждого отдельного продукта и просмотреть цену и технические характеристики.
Нужно ли задерживать каждый запрос страницы на 10 секунд?Или процесс запуска моего сценария когда-то считался одним действием, и мне просто нужно ждать 10 секунд каждый раз, когда я его запускаю?
Если это первое, то как кто-то может собирать большие объемы данных с сайта?Если имеется 5000 страниц продукта, и я задерживаю каждую на 10 секунд, тогда мой сценарий будет занимать 14 часов за один запуск.
Что если я разделю работу между несколькими сценариями?Каждый отдельный сценарий должен следовать правилу сам по себе или все запросы от определенного IP-адреса должны следовать правилу коллективно?
Я не хочу, чтобы мой IP-адрес был заблокирован или случайно заблокирован любой сайт.Заранее спасибо за любые ответы.