как я могу очистить скрытые данные с сайта - PullRequest
0 голосов
/ 08 марта 2020

Я хочу почистить данные с этого сайта. https://www.myconstant.com/pro-lending. Я пытаюсь с BeautifulSoup, но не могу получить доступ к данным этого сайта. Пожалуйста, кто-нибудь здесь может помочь мне. я просто хочу получить доступ к категории инвестиционных заказов с этого сайта.

вот мой пример кода

import requests
from bs4 import BeautifulSoup as bs

url = 'https://www.myconstant.com/pro-lending'
cookies = dict(cookie='OTZ=5322074_36_36__36_; CONSENT=YES+PK.en+202002; ANID=AHWqTUlkHkcsWxQOa8bj1HPw61uI1ASv41AZ-C2dcJszhllBcVsFoL-LRmQURs7t; OGPC=19016257-1:; SID=ugdIMfWxvjc2Zrz3TCDKjthu5lDnFoFH7QJ9zv5qaIM83RE9d1siIWqXAxi2Fbi7EYrlqA.; __Secure-3PSID=ugdIMfWxvjc2Zrz3TCDKjthu5lDnFoFH7QJ9zv5qaIM83RE9yClGzaYUGZtRSrUprQBH_g.; HSID=Ad0Mhd9c6QzutsaZC; SSID=Au6GMpM4y0DzAZYaB; APISID=Xdqm2aWUwlDspAy1/A98sORceYqZRYt41u; SAPISID=TmATibzalihSo7VH/A0VsoKWSycbne7-xj; __Secure-HSID=Ad0Mhd9c6QzutsaZC; __Secure-SSID=Au6GMpM4y0DzAZYaB; __Secure-APISID=Xdqm2aWUwlDspAy1/A98sORceYqZRYt41u; __Secure-3PAPISID=TmATibzalihSo7VH/A0VsoKWSycbne7-xj; NID=199=v7-O74g7gg1mrTP9c7Jj52S6f7pCpyv5iO_W6ggU_DP2gRyUI6u7drxi4_1U0uQn--mo_dIHfyvZ8KpkosDIjvQ_ci-o4hIF_f4J5zd2DS77fxHh40U3wcqnqutOmWnTJM8XJ-OqvwpdraYxX2eexsclXnj4y1nPflDESshiLPMe9KKfzSNr_3ZSPFv7Qt-FCMBYvZoTA-ILWEezeVyIjPwFkJlJwv5t8tNJtAQJin4f9X7Zl-ch0pDOlM-SgNF4IZhR6_gKemBtR0U; 1P_JAR=2020-03-07-21; arp_scroll_position=427.5; SIDCC=AJi4QfHeZ5xBrG_goWvc0Hw3-dSp0Fc5hMSShlvquJ_0dqPxOY3kL2VRgchD78plA1OdPDrc9kqH')

r = requests.get(url, cookies=cookies)

parser= bs(r.text,'html.parser')
print(parser)

1 Ответ

1 голос
/ 18 марта 2020

Вам понадобится селен, чтобы добраться до этого:

import time
from bs4 import BeautifulSoup as bs
from selenium import webdriver
from selenium.webdriver.chrome.options import Options


def get_browser():
    chrome_options = Options()
    chrome_options.add_argument("--disable-extensions")
    chrome_options.add_argument('--disable-notifications')
    chrome_options.add_argument('--incognito')
    driver = webdriver.Chrome(options=chrome_options)
    return driver


url = 'https://www.myconstant.com/pro-lending'

driver = get_browser()
driver.get(url)

time.sleep(10)

parser = bs(driver.page_source, "html.parser")
print(parser)
driver.quit()

Для выполнения Selenium требуется chromedriver . Убедитесь, что этот драйвер находится в том же пути, что и скрипт, или укажите параметр executable_path в методе get_browser как:

driver = webdriver.Chrome(executable_path='/path/to/chrome_driver', options=chrome_options)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...