Попытка очистить страницу одним cookie - PullRequest
0 голосов
/ 18 января 2019

Я пытаюсь очистить таблицу от URL . Я уже некоторое время пользуюсь библиотекой запросов вместе с красивым супом, но я не хочу рисковать, пользуясь веб-драйвером, так как раньше я шел по этому пути.

Поэтому я делаю запрос с запросами и читаю ответ. Но я получаю в шапке следующее, и больше ничего. Может кто-нибудь объяснить мне, что мне нужно делать (потратил на это все утро и начал терять сюжет)?

<head>
  <meta charset="utf-8">
  <title>SoccerSTATS.com - cookie consent</title> 
<style>
.button {

    background-color: #4CAF50; /* Green */
    border: none;
    color: white;
    text-align: center;
    text-decoration: none;
    display: inline-block;
    font-size: 18px;
    margin: 4px 2px;
    cursor: pointer;
}

.button1 {padding: 10px 24px;}
.button2 {padding: 12px 28px;}
.button3 {padding: 14px 40px;}
.button4 {padding: 32px 16px;}
.button5 {padding: 16px;}
</style>  

<script type="text/javascript">
function setCookielocal(cname, cvalue, exdays) {

    var d = new Date();
    d.setTime(d.getTime() + (exdays*24*60*60*1000));
    var expires = "expires="+d.toUTCString();
    var originpage = "/team.asp?league=england_2018&stats=20-bournemouth";
    document.cookie = cname + "=" + cvalue + "; " + expires;
    window.location = "//www.soccerstats.com" + originpage;
}
</script>
</head>

1 Ответ

0 голосов
/ 18 января 2019

Заголовок запроса User-Agent содержит характеристическую строку, которая позволяет одноранговым сетевым протоколам идентифицировать тип приложения, операционную систему, поставщика программного обеспечения или версию программного обеспечения запрашивающего программного агента пользователя. Проверка заголовка User-Agent на стороне сервера - обычная операция, поэтому обязательно используйте строку User-Agent в браузере, чтобы избежать блокировки.

(Источник: http://go -colly.org / Articles / scraping_related_http_headers / )

Единственное, что вам нужно сделать, это установить законного агента пользователя. Поэтому добавьте заголовки в , эмулируйте браузер . :

# This is a standard user-agent of Chrome browser running on Windows 10
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'
    }

Пример:

from bs4 import BeautifulSoup 
import requests 

headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
resp = requests.get('http://example.com', headers=headers).text 
soup = BeautifulSoup(resp, 'html.parser')

Кроме того, вы можете добавить еще один набор заголовков, чтобы выглядеть как законный браузер. Добавьте еще несколько заголовков, как это:

headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',
'Accept' : 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language' : 'en-US,en;q=0.5',
'Accept-Encoding' : 'gzip',
'DNT' : '1', # Do Not Track Request Header
'Connection' : 'close'
}
...