Python Селен обнаружен - PullRequest
       0

Python Селен обнаружен

0 голосов
/ 11 апреля 2020

Я пытаюсь почистить сайт, который не позволяет очищать.

Я использую Selenium изнутри Python

Сайт каким-то образом обнаруживает, что я использую автоматический скребок и либо успешно обращается к странице, но возвращает неверные данные, когда я впоследствии выполняю java скрипт (введите дату и pu sh кнопку для возврата информации) или я получаю уведомление о блокировке и веб-сайт, который просит меня сделать капчу. Иногда он начинает просить утвердить файлы cookie.

Я не могу понять, как меня обнаруживают.

Я использую прокси и вставляю соответствующие случайные задержки в код для симуляции фактический пользователь. Я также чередую и обновляю пользовательские агенты из библиотеки python fake agent.

Я пробовал браузер без головы и без него.

Мой последний код для доступа к URL находится здесь:

    #proxies captured fresh from a free site before this code segment

    idx = randrange(len(proxies_list))  

    url = 'http://www.siteofinterest.net'

    PROXY = proxies_list[idx]  

    options = webdriver.ChromeOptions()
    options.add_argument('--proxy-server=%s' % PROXY)
    #options.add_argument('headless')
    options.add_argument('window-size=1920x1080')
    options.add_argument("disable-gpu")
    ua = UserAgent()
    userAgent = ua.random
    options.add_argument(f'user-agent={userAgent}')

    driver = webdriver.Chrome(executable_path=r'chromedriver.exe',options=options)
    driver.get(url)

Я также видел предложение при использовании драйвера Chrome для изменения переменной javascript, начиная с $ cd c. Я тоже так делал.

Я сейчас пользуюсь списком бесплатных прокси, но также использовал пробную версию с премиальными резидентными прокси и получил тот же результат.

Мысли о том, как я до сих пор нахожусь обнаружено. * * тысяча двадцать-одна

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...