Соскоб API - PullRequest
       10

Соскоб API

0 голосов
/ 19 марта 2019

Доброе утро всем,

Я пытаюсь собрать данные об автомобилях на этом сайте: https://www.caramigo.eu/

Для этого мне нужно запустить запрос в строке поиска на главной странице.для указанного места и даты.Это дает мне такую ​​страницу: https://www.caramigo.eu/be/fr/recherche?address=Belgique%2C+Wallonie%2C+Li%C3%A8ge%2C+4000%2C+Li%C3%A8ge&date_debut=22-03-2019&date_fin=23-03-2019

Затем я могу восстановить данные в файле JSON благодаря инструменту разработчика моего веб-браузера и удалить его.Проблема в том, что файл JSON изменяется каждый раз, когда я запускаю запрос на новое местоположение, и находится по тому же URL-адресу (https://www.caramigo.eu/services/car).

. Есть ли у кого-нибудь идеи о том, как я могу создать паука, который запуститзапрос, получить файл JSON и удалить его? Или, может быть, о том, как я могу изменить данные в API напрямую, чтобы получить другие местоположения?

Заранее спасибо!

1 Ответ

2 голосов
/ 20 марта 2019

Scrapy фильтрует запросы к уже посещенным URL, чтобы избежать циклов. Поскольку нужный вам ресурс всегда использует один и тот же URL, Scrapy отфильтрует его.

Но вы можете отключить его, используя dont_filter=True в запросе. Eg.:

yield scrapy.Request(
   url='https://www.caramigo.eu/services/car',
   dont_filter=True,
   callback=self.parse_item
)
...