Question

Я собираю статистику, и вся необходимая информация находится в <head> (тег script) сайта.

Он имеет <body> (около 5-10 КБ на страницу), так что я не могу разобрать его для уменьшения нагрузки на сервер?

Буду рад, если вы порекомендуете альтернативные оптимизации для уменьшения нагрузки на сервер

settings.py

CONCURRENT_REQUESTS = 32 DOWNLOAD_DELAY = 0,33 теперь скорость 180 / в минуту (иногда 200)

Georgiy · Answer 1 · 30 июня 2019

Scrapy работает только со всем организмом. Такое поведение закодировано в ядре скрапа.

CONCURRENCY_REQUEST = 32

Scrapy не имеет настройки CONCURRENCY_REQUEST. Вы имели в виду CONCURRENT_REQUESTS?

DOWNLOAD_DELAY = 0.33 теперь скорость 180 / мин (иногда 200)

Если вы не указали RANDOMIZE_DOWNLOAD_DELAY как False (значение по умолчанию True). задержка загрузки будет случайным числом в диапазоне от 0,5x до 1,5x от DOWNLOAD_DELAY.

Как минимизировать нагрузку на сервер при разборе с использованием scrapy? / Как игнорировать <body>и анализировать информацию только с <head>

settings.py

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как минимизировать нагрузку на сервер при разборе с использованием scrapy? / Как игнорировать <body>и анализировать информацию только с <head>

settings.py

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов