Веб-страница не загружается, когда открывается через бот или запрашивается любым другим методом в коде Python - PullRequest
1 голос
/ 30 мая 2019

Я пытаюсь удалить https://www.hyatt.com, и это не для незаконного использования. Я просто хочу сделать простой скрипт для поиска отеля, который соответствует моему поиску.

Но проблема в том, что я не могудаже загрузить веб-страницу с помощью любого бота.Он просто не загружается.

Вот несколько способов, которые я уже пробовал.1 - Использовал селен 2 - использовал рамки Scrapy для получения данных 3 - использовал библиотеку запросов Python

from selenium import webdriver

driver = webdriver.Chrome()

driver.get("https://www.hyatt.com")

driver.close()

Я просто хочу, чтобы страница загружалась сама собой.Я позабочусь об остальном.

1 Ответ

0 голосов
/ 31 мая 2019

Я взял ваш код, добавил несколько твиков и в конце запустил тот же тест:

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

options = webdriver.ChromeOptions() 
options.add_argument("start-maximized")
# options.add_argument('disable-infobars')
driver = webdriver.Chrome(chrome_options=options, executable_path=r'C:\WebDrivers\chromedriver.exe')
driver.get("https://www.hyatt.com")
WebDriverWait(driver, 20).until(EC.title_contains("Hyatt"))
print(driver.title)
driver.quit()

В конце концов я столкнулся с той же проблемой.Используя Selenium Я также не смог даже загрузить веб-страницу.Но когда я проверил Консольные ошибки в , он ясно показал, что:

Не удалось загрузить ресурс: сервер ответилсо статусом 404 () https://www.hyatt.com/149e9513-01fa-4fb0-aad4-566afd725d1b/2d206a39-8ed7-437e-a3be-862e0f06eea3/fingerprint

Снимок:

404_fingerprint


404 Не найдено

Код ответа клиента об ошибке HTTP 404 Not Found указывает на то, что сервер не может найти запрошенный ресурс.Ссылки, которые ведут на страницу 404, часто называются неработающими или неработающими ссылками, и на них может распространяться ссылка rot .

Код состояния 404 не указывает, отсутствует ли ресурс временно или постоянно,Но если ресурс окончательно удален, в идеале вместо статуса 404 следует использовать 410 (Унесенные).


Движение вперед при проверке HTML DOM из https://www.hyatt.com/ было отмечено, что некоторые из тегов <script> и <noscript> относятся к akam :

  • <script type="text/javascript" src="https://www.hyatt.com/akam/10/28f56097" defer=""></script>
  • <noscript><img src="https://www.hyatt.com/akam/10/pixel_28f56097?a=dD02NDllZTZmNzg1NmNmYmIyYjVmOGFiOGYwMWI5YWMwZmM4MzcyZGY5JmpzPW9mZg==" style="visibility: hidden; position: absolute; left: -999px; top: -999px;" /></noscript>

Что является явным свидетельством того, что сайт защищен Bot Management поставщиком услуг Akamai Bot Manager и навигацией WebDriver , управляемый Клиент браузера обнаруживается, а затем блокируется .


Outro

Вы можете найти некоторыеболее актуальные обсуждения в:

...