Я пытался получить доступ к URL https://www.mouser.co.uk/
с определенными chrome.options , но обнаружился и был перенаправлен на страницу Извините за наше прерывание .
Кодовый блок:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
options = Options()
options.add_argument("start-maximized")
options.add_argument("disable-infobars")
options.add_argument("--disable-extensions")
driver = webdriver.Chrome(chrome_options=options, executable_path=r'C:\Utility\BrowserDrivers\chromedriver.exe')
driver.get("https://www.mouser.co.uk")
myElement = WebDriverWait(driver, 30).until(EC.element_to_be_clickable((By.XPATH, "//a[@id='1_lnkLeftFlag']")))
driver.execute_script("arguments[0].click();", myElement)
Теперь при просмотре страницы Простите за наше прерывание вы найдете тег <body>
, содержащий:
- Атрибут class
dist-GlobalHeader
- Атрибут class
dist-PageWrap
Что является явным свидетельством того, что веб-сайт защищен Bot Management поставщиком услуг Distil Networks и навигацией по ChromeDriver обнаруживается и впоследствии блокируется .
Distil
Согласно статье Там действительно что-то есть в Distil.it ... :
Distil защищает сайты от автоматических ботов по очистке контента, наблюдая за поведением сайтов и выявляя закономерности, характерные для scraчел.Когда Distil идентифицирует вредоносного бота на одном сайте, он создает черный профиль поведения, который развертывается для всех его клиентов.Что-то вроде брандмауэра бота, Distil обнаруживает шаблоны и реагирует.
Далее,
"One pattern with **Selenium** was automating the theft of Web content"
, сказал генеральный директор Distil Рами Эссейд в интервью на прошлой неделе."Even though they can create new bots, we figured out a way to identify Selenium the a tool they're using, so we're blocking Selenium no matter how many times they iterate on that bot. We're doing that now with Python and a lot of different technologies. Once we see a pattern emerge from one type of bot, then we work to reverse engineer the technology they use and identify it as malicious".
Ссылка
Соответствующее обсуждение можно найти в Невозможно использовать Selenium для автоматизации входа на сайт Chase