Python веб-запросов продолжают получать робот - PullRequest
0 голосов
/ 22 апреля 2020

Когда я пытаюсь очистить следующие страницы, он продолжает думать, что я бот => <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">, даже когда я передаю пользовательские заголовки:

Как я могу обойти это? Смотрите код ниже:

import requests
import urllib.request
import time
from bs4 import BeautifulSoup
import random
from fake_useragent import UserAgent

ua=UserAgent();
hdr = {'User-Agent': ua.random,
      'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
      'Accept-Charset': 'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
      'Accept-Encoding': 'none',
      'Accept-Language': 'en-US,en;q=0.8',
      'Connection': 'keep-alive'}

url = 'https://www.funda.nl/koop/rotterdam/'
urlresponse = requests.get(url, headers=hdr)

print(urlresponse.text[:1000])
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...