Поэтому я пытаюсь очистить веб-сайт, который требует логин. Я использовал запросы и отправил свои регистрационные данные, хотя, когда я пытаюсь извлечь данные с веб-сайта, я не получаю веб-сайт, который ищу.
USERNAME = "test@gmail.com"
PASSWORD = "test"
#MIDDLEWARE_TOKEN = "TESTTOKEN"
LOGIN_URL = "https://vrdistribution.com.au/auth/login/process"
VR_URL = "https://vrdistribution.com.au/categories/tabletop-gaming?page=1"
def main():
session_requests = requests.session()
# Get login csrf token
result = session_requests.get(LOGIN_URL)
tree = html.fromstring(result.text)
authenticity_token = list(set(tree.xpath("//input[@name='_token']/@value")))
# Create payload
payload = {
"email": USERNAME,
"password": PASSWORD,
"csrfmiddlewaretoken": authenticity_token
}
# Perform login
result = session_requests.post(LOGIN_URL, data = payload, headers = dict(referer = LOGIN_URL))
#Scrape
result = session_requests.get(VR_URL, headers =dict(referer=VR_URL))
response = requests.get(VR_URL)
soup = BeautifulSoup(response.text, 'lxml')
print(soup)
Выходные данные не совпадают с содержимым VR_URL (https://vrdistribution.com.au/categories/tabletop-gaming?page=1), который я указал, когда я проверяю страницу, которую хочу очистить, в отличие от вывода объекта soup
, он совершенно другой.
Есть ли способ для меня, чтобы получить доступ и очистить содержимое от VR_URL?