Соскоб с сайта, который требует входа, как получить доступ к содержимому? - PullRequest
0 голосов
/ 26 января 2020

Поэтому я пытаюсь очистить веб-сайт, который требует логин. Я использовал запросы и отправил свои регистрационные данные, хотя, когда я пытаюсь извлечь данные с веб-сайта, я не получаю веб-сайт, который ищу.

USERNAME = "test@gmail.com"
PASSWORD = "test"
#MIDDLEWARE_TOKEN = "TESTTOKEN"
LOGIN_URL = "https://vrdistribution.com.au/auth/login/process"
VR_URL = "https://vrdistribution.com.au/categories/tabletop-gaming?page=1"

def main():
    session_requests = requests.session()

    # Get login csrf token
    result = session_requests.get(LOGIN_URL)
    tree = html.fromstring(result.text)
    authenticity_token = list(set(tree.xpath("//input[@name='_token']/@value")))

    # Create payload
    payload = {
        "email": USERNAME, 
        "password": PASSWORD, 
        "csrfmiddlewaretoken": authenticity_token
    }

    # Perform login
    result = session_requests.post(LOGIN_URL, data = payload, headers = dict(referer = LOGIN_URL))

    #Scrape
    result = session_requests.get(VR_URL, headers =dict(referer=VR_URL))
    response = requests.get(VR_URL)
    soup = BeautifulSoup(response.text, 'lxml')
    print(soup)

Выходные данные не совпадают с содержимым VR_URL (https://vrdistribution.com.au/categories/tabletop-gaming?page=1), который я указал, когда я проверяю страницу, которую хочу очистить, в отличие от вывода объекта soup, он совершенно другой.

Есть ли способ для меня, чтобы получить доступ и очистить содержимое от VR_URL?

...