Я пытаюсь сканировать большой веб-сайт (около 1,5 млн. URL) с помощью кричащего инструмента-паука-лягушки.Вначале все работает хорошо и быстро со скоростью ~ 30 страниц в секунду (с использованием 20 потоков), но постепенно замедляется до скорости сканирования 2 страниц в секунду после сканирования примерно 300–400 000 страниц.
MyПервой мыслью было то, что я вызвал замедление работы сервера, но перезапуск сканирования заставил бы сканер снова быстро заработать.
Я пробовал несколько конфигураций в режиме хранения базы данных с выделенным оперативной памятью от 2 до 12 ГБ.Я переключился между несколькими пользовательскими агентами (screaming-frog, google-bot, браузер Firefox и т. Д.) И параметрами заголовка.
Кроме того, увеличение или уменьшение потоков не будет иметь никакого значения и для общей скорости сканирования,Время отклика каждой страницы будет соответственно изменяться и будет составлять 2 страницы в секунду, а это означает, что чем больше я использую потоков, тем медленнее будет получен каждый ответ.
Буду признателен за любую информацию по этому вопросу.