Обработка исключений NotSupported - PullRequest
0 голосов
/ 03 января 2019

Я использую Scrapy Spider для очистки некоторых данных с веб-сайтов, но не все ссылки хороши. Я получаю ошибку NotSupported для некоторых из них, и я хотел бы сохранить эти URL-адреса в файле или определить другое поведение. Есть ли способ поймать scrapy.exceptions.NotSupported и определить пользовательское поведение? Я наивно пробовал следующий код, но он не работает.

try:
    yield scrapy.Request(url, callback=self.parse)
except scrapy.exceptions.NotSupported:
    self.logger.info(url)

1 Ответ

0 голосов
/ 16 января 2019

Когда возникает при создании объекта Request, NotSupported подразумевает, что вы предоставляете неверный URL.

Если URL извлечен из ответа HTML, наиболее вероятной причиной является то, что URL является относительным, и Request может принимать только абсолютные URL.

Вы можете использовать response.urljoin(url) вместо просто url, чтобы решить эту проблему.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...