URL запроса Scrapy приходит от того, какой ответ URL - PullRequest
0 голосов
/ 14 марта 2019

Для Scrapy мы могли бы получить response.url, response.request.url, но откуда нам знать, что response.url, response.request.url извлекается из родительского URL?

СпасибоКен

1 Ответ

1 голос
/ 14 марта 2019

Вы можете использовать Request.meta для отслеживания такой информации.

Когда вы даете свой запрос, включите response.url в мета:

yield response.follow(link, …, meta={'source_url': response.url})

Затем прочтите его в своем методе синтаксического анализа:

source_url = response.meta['source_url']

Это наиболее простой способ сделать это, и вы можете использовать этот метод для отслеживания оригинальных URL-адресов даже в разных методах синтаксического анализа, если хотите.

В противном случае вам может понадобиться воспользоваться мета-ключом redirect_urls , который отслеживает прыжки с перенаправлением.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...