Веб-скребки, сканеры и Google-боты - PullRequest
0 голосов
/ 24 апреля 2020

Меня недавно наняли для очистки сайта, используя Python, и они сказали мне, что он нужен для их сервера. Я сказал хорошо, нет проблем. Я начал собирать скребок с Beautifulsoup и заметил, что они запускают check

You are using an <strong>outdated</strong> browser. Please
          <a href="http://browsehappy.com/">upgrade your browser</a> to improve
          your experience.

Я сказал, хорошо, я думаю, мы можем использовать Selenium без головы, он будет очищаться медленнее, но он будет работать на сервере. А потом я натолкнулся на еще одну проверку, в которой говорилось

[0424/010707.825:INFO:CONSOLE(1)] "Iframe Not Found"

. Это заставило меня задуматься, как боты Google обходят это на сервере? потому что вы можете запустить браузер без режима без головы, и вы не будете получать эти проверки, и вы можете очистить веб-страницу в порядке. Что делать, если вы не можете запустить браузер без автономного режима, как обойти это? Если есть какие-то гуглеры, которые могут рассказать мне больше, это было бы здорово, или кто-то, кто знает об этом больше или работает с этим.

...