Как получить URL, которые имеют статус ошибки - PullRequest
0 голосов
/ 05 июня 2019

Я пишу паука со скрапом в python3, и я только недавно начал копать.Я ловил данные веб-сайта, и через несколько минут веб-сайт может получить мне статус 302 и перенаправить на другой URL, чтобы подтвердить меня.Поэтому я хочу сохранить URL-адрес в файл.

, например, https://www.test.com/article?id=123 - это то, что я хочу запросить, а затем оно отвечает мне 302 перенаправлением на https://www.test.com/vrcode

Я хочу сохранить https://www.test.com/article?id=123 в файл, как мне это сделать?

class CatchData(scrapy.Spider):
    name = 'test'

    allowed_domains = ['test.com']

    start_urls = ['test.com/article?id=1',
                  'test.com/article?id=2',
                  # ...
                 ]

    def parse(self, response):
        item = LocationItem()
        item['article'] = response.xpath('...')
        yield item

Я нашел ответ от Как получить URL-адреса ошибок Scrap?

, ноЭто ответ на шесть лет назад, я хочу знать, есть ли более простой способ сделать это

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...