Снижение скорости сканирования при сканировании большого сайта - PullRequest
0 голосов
/ 02 июня 2019

Я пытаюсь сканировать большой веб-сайт (около 1,5 млн. URL) с помощью кричащего инструмента-паука-лягушки.Вначале все работает хорошо и быстро со скоростью ~ 30 страниц в секунду (с использованием 20 потоков), но постепенно замедляется до скорости сканирования 2 страниц в секунду после сканирования примерно 300–400 000 страниц.

MyПервой мыслью было то, что я вызвал замедление работы сервера, но перезапуск сканирования заставил бы сканер снова быстро заработать.

Я пробовал несколько конфигураций в режиме хранения базы данных с выделенным оперативной памятью от 2 до 12 ГБ.Я переключился между несколькими пользовательскими агентами (screaming-frog, google-bot, браузер Firefox и т. Д.) И параметрами заголовка.

Кроме того, увеличение или уменьшение потоков не будет иметь никакого значения и для общей скорости сканирования,Время отклика каждой страницы будет соответственно изменяться и будет составлять 2 страницы в секунду, а это означает, что чем больше я использую потоков, тем медленнее будет получен каждый ответ.

Буду признателен за любую информацию по этому вопросу.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...