Я пытаюсь почистить сайт, который не позволяет очищать.
Я использую Selenium изнутри Python
Сайт каким-то образом обнаруживает, что я использую автоматический скребок и либо успешно обращается к странице, но возвращает неверные данные, когда я впоследствии выполняю java скрипт (введите дату и pu sh кнопку для возврата информации) или я получаю уведомление о блокировке и веб-сайт, который просит меня сделать капчу. Иногда он начинает просить утвердить файлы cookie.
Я не могу понять, как меня обнаруживают.
Я использую прокси и вставляю соответствующие случайные задержки в код для симуляции фактический пользователь. Я также чередую и обновляю пользовательские агенты из библиотеки python fake agent
.
Я пробовал браузер без головы и без него.
Мой последний код для доступа к URL находится здесь:
#proxies captured fresh from a free site before this code segment
idx = randrange(len(proxies_list))
url = 'http://www.siteofinterest.net'
PROXY = proxies_list[idx]
options = webdriver.ChromeOptions()
options.add_argument('--proxy-server=%s' % PROXY)
#options.add_argument('headless')
options.add_argument('window-size=1920x1080')
options.add_argument("disable-gpu")
ua = UserAgent()
userAgent = ua.random
options.add_argument(f'user-agent={userAgent}')
driver = webdriver.Chrome(executable_path=r'chromedriver.exe',options=options)
driver.get(url)
Я также видел предложение при использовании драйвера Chrome для изменения переменной javascript, начиная с $ cd c. Я тоже так делал.
Я сейчас пользуюсь списком бесплатных прокси, но также использовал пробную версию с премиальными резидентными прокси и получил тот же результат.
Мысли о том, как я до сих пор нахожусь обнаружено. * * тысяча двадцать-одна