У меня есть сканирующий python скрипт, который висит на URL: pulsepoint.com/sellers.json
Бот использует стандартный запрос для получения контента, но возвращается ошибка 404. В браузере это работает (есть перенаправление 301, но за этим может следовать запрос). Первое, что я думаю, - это проблема заголовка запроса, поэтому я скопировал конфигурацию браузера. Код выглядит следующим образом:
crawled_url="pulsepoint.com"
seller_json_url = 'http://{thehost}/sellers.json'.format(thehost=crawled_url)
print(seller_json_url)
myheaders = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Language': 'fr,fr-FR;q=0.8,en-US;q=0.5,en;q=0.3',
'Accept-Encoding': 'gzip, deflate, br',
'Connection': 'keep-alive',
'Pragma': 'no-cache',
'Cache-Control': 'no-cache'
}
r = requests.get(seller_json_url, headers=myheaders)
logging.info(" %d" % r.status_code)
Но я все еще получаю сообщение об ошибке 404.
Моя следующая догадка:
- Логин? Не используется здесь
- Печенье? Не то чтобы я мог видеть
Так как их сервер блокирует моего бота? Кстати, это URL, который должен быть просканирован, ничего противозаконного ..
Заранее спасибо!