Вы можете использовать Request.meta для отслеживания такой информации.
Когда вы даете свой запрос, включите response.url
в мета:
yield response.follow(link, …, meta={'source_url': response.url})
Затем прочтите его в своем методе синтаксического анализа:
source_url = response.meta['source_url']
Это наиболее простой способ сделать это, и вы можете использовать этот метод для отслеживания оригинальных URL-адресов даже в разных методах синтаксического анализа, если хотите.
В противном случае вам может понадобиться воспользоваться мета-ключом redirect_urls
, который отслеживает прыжки с перенаправлением.