Я просматриваю веб-страницы, используя Python библиотеку scrapy
с прокси-серверами HTTP, собранными из Интернета. Поскольку у меня есть несколько машин, работающих под разными операционными системами, я тестирую на своих машинах один и тот же паук scrapy
. Я ожидал, что все машины будут показывать одинаковую производительность, потому что они отправляют запросы в одной и той же форме, используя случайно выбранные прокси-серверы из большого пула, но паук, работающий на машине Windows
, превосходит другие.
Я не ожидал какого-либо конкретного c успеха, так как многие прокси-серверы не работают. Тем не менее, я также не ожидал, что показатели успеха могут отличаться в зависимости от операционных систем следующим образом.
- Windows 10: 16,85%
- Ubuntu 18: 3,84%
Теперь я подозреваю, что должны быть некоторые инструменты, которые сравнивают User-Agent
HTTP-заголовка с реальной ОС клиента, поскольку я использую следующий User-Agent
во всех независимых запросах. к реальным операционным системам.
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36
- Могут ли веб-серверы / прокси-серверы проверять HTTP
User-Agent
? - Если да, как я могу этого избежать?