Одно из лучших соображений, которое следует учитывать, - это владельцы сайтов. Как уже упоминали другие, файл robots.txt является стандартом для сайтов, делающих это.
Короче говоря, у вас есть 3 пути в robots.txt, которые используются для ограничения скорости запроса.
Crawl-delay: #, целое число, представляющее количество секунд в секундах ожидания между запросами.
Request-rate: # / #, числитель, представляющий, сколько страниц, и знаменатель, представляющий, сколько в секундах. то есть: 1/3 = 1 страница каждые 3 секунды.
Время посещения: #### - ####, два 4-значных числа, разделенных дефисом, которые представляют время (в формате ЧЧ: ММ по Гринвичу), в которое вы должны сканировать их сайт.
С учетом этих предложений / запросов вы можете обнаружить, что некоторые сайты не имеют ни одного из них в своем файле robots.txt, который находится под вашим контролем. Я бы посоветовал придерживаться разумной скорости не менее 1 страницы в секунду, а также ограничить количество страниц, которые вы потребляете в день.