По телефону возможно не очень читабельно
Если вы собираетесь собирать вещи с веб-сайта, которые являются статическими страницами или другими вещами. Вы можете легко получить HTML по запросам
import requests
page_content=requests.get(url)
Но если вы захватите такие вещи, как какой-нибудь коммуникационный сайт. Будут некоторые способы борьбы с захватом (как сломать эти шумные вещи будет проблемой)
Первый способ: сделайте ваши запросы более похожими на браузер (человека).
добавить заголовки (вы можете использовать инструменты разработчика Chrome или Fiddle для копирования заголовков)
сделать правильную форму публикации. Это следует скопировать способы отправки формы через браузер.
получить куки и добавить его в запросы
Второй способ. используйте селен и драйвер браузера. Selenium будет использовать настоящий драйвер браузера (как и я, я использую chromedriver)
Помните, чтобы добавить chromedriver к пути
Или используйте код для загрузки драйвера.exe
Водитель = WebDriver.Chrome (путь)
не уверен, что этот код настройки
driver.get (URL)
Он полностью просматривает URL через браузер, поэтому он уменьшит сложность захвата вещей
получить веб-страницу
страница = driver.page_soruces
на некоторых сайтах будет прыгать несколько страниц. Это приведет к некоторой ошибке. Заставьте свой веб-сайт подождать, пока не появится какой-то определенный элемент.
попробовать:
certain_element = ExpectedConditions.presenceOfElementLocated (By.id, 'youKnowThereIsAElement'sID)
WebDriverWait (certain_element)
или используйте имплицитное ожидание: дождитесь нужного вам времени
driver.manage (). Timeouts (). НеявноWait (5, TimeUnit.SECONDS)
И вы можете контролировать веб-сайт с помощью WebDriver. Здесь описывать не собираюсь. Вы можете искать модуль.