Я пытаюсь почистить эту страницу: https://www.google.com/maps/d/u/0/viewer?mid=10gfc4vm6VKjxIf6UhKLlMLePqTjTYXYC&ll=50.65039081184933%2C3.040291506005474&z=11, чтобы получить информацию о производителях.Однако, когда я отправляю свои запросы (через scrapy shell), я получаю пустой ответ:
$ scrapy shell "https://www.google.com/maps/d/u/0/viewer?mid=10gfc4vm6VKjxIf6UhKLlMLePqTjTYXYC&ll=50.6503908118493%2C3.040291506005474&z=11" In [1]: response
Вот код, который я использую
# -*- coding: utf-8 -*- import datetime import re import scrapy from aprobio.items import AprobioItem class AprospiderSpider(scrapy.Spider): name = 'aprospider' allowed_domains = ['aprobio.fr'] start_urls = ['http://aprobio.fr/'] crawl_datetime = str(datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")) start_time = datetime.datetime.now() def parse(self, response): self.crawler.stats.set_value("start_time", self.start_time) data = re.findall(r"var _pageData = = (.+?);\r", response.body.decode("utf-8"), re.S)
Решено: Вы меняете ROBOTSTXT_OBEY на False в settings.py