Могут ли веб-серверы или прокси-серверы обнаруживать ОС запрашивающего без User-Agent? - PullRequest
1 голос
/ 20 июня 2020

Я просматриваю веб-страницы, используя Python библиотеку scrapy с прокси-серверами HTTP, собранными из Интернета. Поскольку у меня есть несколько машин, работающих под разными операционными системами, я тестирую на своих машинах один и тот же паук scrapy. Я ожидал, что все машины будут показывать одинаковую производительность, потому что они отправляют запросы в одной и той же форме, используя случайно выбранные прокси-серверы из большого пула, но паук, работающий на машине Windows, превосходит другие.

Я не ожидал какого-либо конкретного c успеха, так как многие прокси-серверы не работают. Тем не менее, я также не ожидал, что показатели успеха могут отличаться в зависимости от операционных систем следующим образом.

  • Windows 10: 16,85%
  • Ubuntu 18: 3,84%

Теперь я подозреваю, что должны быть некоторые инструменты, которые сравнивают User-Agent HTTP-заголовка с реальной ОС клиента, поскольку я использую следующий User-Agent во всех независимых запросах. к реальным операционным системам.

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36
  1. Могут ли веб-серверы / прокси-серверы проверять HTTP User-Agent?
  2. Если да, как я могу этого избежать?
...