Question

Я новичок в мире web scraping, но я знаю основы, однако эта проблема ставит меня в тупик. Моя цель - очистить веб-сайт, но для этого требуется cookies. Многие пользователи находят cookies, которые им важны, и их значения после проверки страницы, а затем устанавливают файлы cookie на get request для доступа к веб-сайту. Однако веб-сайт, который я пытаюсь очистить, имеет множество очень сложных файлов cookie, и я не могу их понять. Возможно ли создать файлы cookie в get request и сохранить их в сеансе, чтобы мне не приходилось искать в море файлов cookie?

Любая помощь будет принята с благодарностью

import requests
from bs4 import BeautifulSoup

url="https://www.shiekh.com/"
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'}

with requests.Session() as s:
    r = s.get(url, headers=headers)
    r = s.post(url, headers=headers)
    soup = BeautifulSoup(r.content, 'lxml')
    print(soup)

В настоящее время я использую указанное выше для очистки цен на товары, однако меня помечают как бота.

Caleb Goodman · Answer 1 · 02 августа 2020

Используйте requests.Session:

import requests

session = requests.Session()
response = session.get('https://google.com')
print(session.cookies)

Файлы cookie сохраняются в session.cookies после каждого посещаемого вами веб-сайта.

Как сохранить файлы cookie при парсинге в Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как сохранить файлы cookie при парсинге в Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы