Как минимизировать нагрузку на сервер при разборе с использованием scrapy? / Как игнорировать <body>и анализировать информацию только с <head> - PullRequest
0 голосов
/ 30 июня 2019

Я собираю статистику, и вся необходимая информация находится в <head> (тег script) сайта.

Он имеет <body> (около 5-10 КБ на страницу), так что я не могу разобрать его для уменьшения нагрузки на сервер?

Буду рад, если вы порекомендуете альтернативные оптимизации для уменьшения нагрузки на сервер

settings.py

CONCURRENT_REQUESTS = 32 DOWNLOAD_DELAY = 0,33 теперь скорость 180 / в минуту (иногда 200)

1 Ответ

0 голосов
/ 30 июня 2019

Scrapy работает только со всем организмом. Такое поведение закодировано в ядре скрапа.

CONCURRENCY_REQUEST = 32

Scrapy не имеет настройки CONCURRENCY_REQUEST. Вы имели в виду CONCURRENT_REQUESTS?

DOWNLOAD_DELAY = 0.33 теперь скорость 180 / мин (иногда 200)

Если вы не указали RANDOMIZE_DOWNLOAD_DELAY как False (значение по умолчанию True). задержка загрузки будет случайным числом в диапазоне от 0,5x до 1,5x от DOWNLOAD_DELAY.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...