Прежде всего, я думаю, что стоит сказать, что я знаю, что есть множество подобных вопросов, но ни один из них не работает для меня ...
Я пытаюсь собрать информацию о пользователях с веб-сайта, которому сначала необходимо войти в систему с помощью учетной записи Google.
В своих тестах я использую настройки скребка для своих пользователей с этой страницы в качестве примера. Главная страница - https://www.futmondo.com', а целевая страница - http://www.futmondo.com/user/settings'
Вот что я пробовал:
import requests
from bs4 import BeautifulSoup
# TEST 1
payload = {
'action': 'login',
'identifier': 'xxxxxxxxx@gmail.com',
'password': 'xxxxxxxxx'
}
# TEST 2
payload = {
'action': 'login',
'username': 'xxxxxxxxx@gmail.com',
'password': 'xxxxxxxxx'
}
with requests.Session() as s:
s.post('https://www.futmondo.com', data=payload)
base_page = s.get('http://www.futmondo.com/user/settings')
soup = BeautifulSoup(base_page.content, 'html.parser')
print(soup.title)
print(soup.text)
Но я получаю HTML-код без моих пользовательских значений.
Я думаю, что проблема в том, что я не знаю, что такое «главная страница входа», когда я нажимаю «Jugar» (Воспроизведение), они перенаправляют меня на другую страницу, чтобы написать пользователю ( Первый пользователь web , HTML-код первого пользователя ), и когда я пишу пользователю, они перенаправляют меня на другую страницу для ввода пароля ( Второй пароль web , HTML-код второго пароля ).
Также я искал в html-коде после того, как вошел в систему, чтобы найти эти «username» и «password» ключи, но я только нахожу это: html-код после входа в систему
Также я прочитал некоторые дискуссии о различиях между HTTP-аутентификацией и куки-файлами. Тем не менее, ни один из них не работал.
Пожалуйста, любая помощь будет оценена. Большое спасибо.