Как я могу очистить сайт, не будучи обнаруженным и обходя reCAPTCHA, используя селеновый веб-драйвер через Python? - PullRequest
0 голосов
/ 13 марта 2019

Я знаю, что такое webscraping, и я взял данные с разных веб-сайтов, и я использую язык Python и Selen Webdriver Chrome. Но я называю веб-сайт открытой страницей, а затем нажимаю или перехожу на любую другую страницу, после чего веб-сайт ограничивает меня, и веб-сайт узнает, что я использую автоматический хром.

Ответы [ 2 ]

1 голос
/ 13 марта 2019

Это может быть связано с тем, что веб-сайт использует reCAPTCHA v3, который «позволяет вам проверить, является ли взаимодействие законным без какого-либо взаимодействия с пользователем». Это означает, что они могут определить, если вы не человек, не попросив вас отметить знаменитое поле «Я не робот». Это поле используется в предыдущей версии reCAPTCHA, v2.

Подробнее о reCAPTCHA читайте здесь: https://developers.google.com/recaptcha/docs/versions

Я не думаю, что можно обойти это с Selenium. И, как уже упоминалось, очистка веб-страниц часто является незаконной.

0 голосов
/ 13 марта 2019

В наши дни веб-сайты могут довольно легко обнаружить вашу программу как BOT . В настоящее время Google имеет 4 (четыре) reCAPTCHA для выбора и использования при создании нового сайта.

  • reCAPTCHA v3
  • reCAPTCHA v2 (флажок "Я не робот")
  • reCAPTCHA v2 (Невидимый значок reCAPTCHA)
  • reCAPTCHA v2 (Android)

Решение

Однако есть несколько общих подходов, чтобы избежать обнаружения при просмотре веб-страниц:

Outro

См:

...