Question

Я знаю, что такое webscraping, и я взял данные с разных веб-сайтов, и я использую язык Python и Selen Webdriver Chrome. Но я называю веб-сайт открытой страницей, а затем нажимаю или перехожу на любую другую страницу, после чего веб-сайт ограничивает меня, и веб-сайт узнает, что я использую автоматический хром.

Carlos · Answer 1 · 13 марта 2019

Это может быть связано с тем, что веб-сайт использует reCAPTCHA v3, который «позволяет вам проверить, является ли взаимодействие законным без какого-либо взаимодействия с пользователем». Это означает, что они могут определить, если вы не человек, не попросив вас отметить знаменитое поле «Я не робот». Это поле используется в предыдущей версии reCAPTCHA, v2.

Подробнее о reCAPTCHA читайте здесь: https://developers.google.com/recaptcha/docs/versions

Я не думаю, что можно обойти это с Selenium. И, как уже упоминалось, очистка веб-страниц часто является незаконной.

DebanjanB · Answer 2 · 13 марта 2019

В наши дни веб-сайты могут довольно легко обнаружить вашу программу как BOT . В настоящее время Google имеет 4 (четыре) reCAPTCHA для выбора и использования при создании нового сайта.

reCAPTCHA v3
reCAPTCHA v2 (флажок "Я не робот")
reCAPTCHA v2 (Невидимый значок reCAPTCHA)
reCAPTCHA v2 (Android)

Решение

Однако есть несколько общих подходов, чтобы избежать обнаружения при просмотре веб-страниц:

Первый и главный атрибут, который веб-сайт может определить для вашего скрипта / программы, - ваш размер монитора . Поэтому рекомендуется , а не , чтобы использовать обычный Viewport .
Если вам нужно отправить несколько запросов на веб-сайт, продолжайте изменять User Agent при каждом запросе. Здесь вы можете найти подробное обсуждение Как изменить пользовательский агент Google Chrome в Selenium?
Чтобы имитировать поведение человека , вам может потребоваться замедлить выполнение сценария даже за пределами WebDriverWait и Ожидаемые_условия , вызывая time.sleep(secs). Здесь вы можете найти подробное обсуждение Как перевести webdriver в Python на миллисекунды

Outro

См:

Как я могу очистить сайт, не будучи обнаруженным и обходя reCAPTCHA, используя селеновый веб-драйвер через Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Решение

Outro

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как я могу очистить сайт, не будучи обнаруженным и обходя reCAPTCHA, используя селеновый веб-драйвер через Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Решение

Outro

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы