Когда я пытаюсь очистить следующие страницы, он продолжает думать, что я бот => <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
, даже когда я передаю пользовательские заголовки:
Как я могу обойти это? Смотрите код ниже:
import requests
import urllib.request
import time
from bs4 import BeautifulSoup
import random
from fake_useragent import UserAgent
ua=UserAgent();
hdr = {'User-Agent': ua.random,
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Charset': 'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
'Accept-Encoding': 'none',
'Accept-Language': 'en-US,en;q=0.8',
'Connection': 'keep-alive'}
url = 'https://www.funda.nl/koop/rotterdam/'
urlresponse = requests.get(url, headers=hdr)
print(urlresponse.text[:1000])