Я новичок в веб-скарпинге и хотел бы научиться делать это правильно и вежливо.Моя проблема похожа на это .
'Поэтому я пытаюсь войти и перейти на страницу, используя python и запросы.Я почти уверен, что вошел в систему, но как только я пытаюсь перейти на страницу, HTML-код, который я печатаю с этой страницы, указывает, что вы должны войти, чтобы увидеть эту страницу. '
Я проверил robots.txt на сайте, который я хотел бы почистить.Есть ли что-то, что мешает мне соскабливать?Пользовательский агент: * Disallow: / caching / Disallow: / admin3003 / Disallow: / admin5573 / Disallow: / members / Disallow: / pp / Disallow: / subdomains / Disallow: / tags / Disallow: / templates / Disallow: / bin /Disallow: / emails /
Мой код с решением по вышеуказанной ссылке, который у меня не работает:
import requests
from bs4 import BeautifulSoup
login_page = <login url>
link = <required url>
payload = {
“username” = <some username>,
“password” = <some password>
}
p = requests.post(login_page, data=payload)
cookies = p.cookies
page_response = requests.get(link, cookies=cookies)
page_content = BeautifulSoup(page_response.content, "html.parser")
RequestsCookieJar показывает Cookie ASP.NET_SessionId = 1adqylnfxbqf5n45p0ooy345 для веб-сайта (с p.команда cookie)
Вывод p.status_code: 200
ОБНОВЛЕНИЕ:
s = requests.session()
не решает мою проблему.Я пробовал это до того, как начал изучать файлы cookie.
Обновление 2: Я пытаюсь собирать новости с определенного веб-сайта.Сначала я отфильтровал новости по поисковому слову, и на первой странице появились сохраненные ссылки с запросами Python + Beautifulsoup.Теперь я хотел бы перейти по ссылкам и извлечь из них новости.Полный текст можно увидеть только с учетными данными.Специального окна входа в систему нет, и войти можно через любую страницу.Там есть кнопка входа в систему, и при наведении на нее мыши появляется окно входа в систему, как на рисунке.Я пытался войти как через главную страницу, так и через страницу, с которой я хотел бы извлечь текст (не в одно и то же время, но в разных испытаниях).Ничего из этого не работает.Я также попытался найти токен csrf, выполнив поиск «csrf_token», «authentication_token», «csrfmiddlewaretoken»,: csrf "," auth ". Ничего не найдено в html на веб-страницах. Изображение