Соскреби с python сайт, на котором нужен логин гугл - PullRequest
0 голосов
/ 02 сентября 2018

Прежде всего, я думаю, что стоит сказать, что я знаю, что есть множество подобных вопросов, но ни один из них не работает для меня ...

Я пытаюсь собрать информацию о пользователях с веб-сайта, которому сначала необходимо войти в систему с помощью учетной записи Google.

В своих тестах я использую настройки скребка для своих пользователей с этой страницы в качестве примера. Главная страница - https://www.futmondo.com', а целевая страница - http://www.futmondo.com/user/settings'

Вот что я пробовал:

import requests
from bs4 import BeautifulSoup

# TEST 1
payload = {
    'action': 'login',
    'identifier': 'xxxxxxxxx@gmail.com',
    'password': 'xxxxxxxxx'
}

# TEST 2
payload = {
    'action': 'login',
    'username': 'xxxxxxxxx@gmail.com',
    'password': 'xxxxxxxxx'
}

with requests.Session() as s:

s.post('https://www.futmondo.com', data=payload)    
base_page = s.get('http://www.futmondo.com/user/settings')

soup = BeautifulSoup(base_page.content, 'html.parser')
print(soup.title)
print(soup.text)

Но я получаю HTML-код без моих пользовательских значений.

Я думаю, что проблема в том, что я не знаю, что такое «главная страница входа», когда я нажимаю «Jugar» (Воспроизведение), они перенаправляют меня на другую страницу, чтобы написать пользователю ( Первый пользователь web , HTML-код первого пользователя ), и когда я пишу пользователю, они перенаправляют меня на другую страницу для ввода пароля ( Второй пароль web , HTML-код второго пароля ).

Также я искал в html-коде после того, как вошел в систему, чтобы найти эти «username» и «password» ключи, но я только нахожу это: html-код после входа в систему Также я прочитал некоторые дискуссии о различиях между HTTP-аутентификацией и куки-файлами. Тем не менее, ни один из них не работал.

Пожалуйста, любая помощь будет оценена. Большое спасибо.

...