Question

Я использую Scrapy Spider для очистки некоторых данных с веб-сайтов, но не все ссылки хороши. Я получаю ошибку NotSupported для некоторых из них, и я хотел бы сохранить эти URL-адреса в файле или определить другое поведение. Есть ли способ поймать scrapy.exceptions.NotSupported и определить пользовательское поведение? Я наивно пробовал следующий код, но он не работает.

try:
    yield scrapy.Request(url, callback=self.parse)
except scrapy.exceptions.NotSupported:
    self.logger.info(url)

Gallaecio · Answer 1 · 16 января 2019

Когда возникает при создании объекта Request, NotSupported подразумевает, что вы предоставляете неверный URL.

Если URL извлечен из ответа HTML, наиболее вероятной причиной является то, что URL является относительным, и Request может принимать только абсолютные URL.

Вы можете использовать response.urljoin(url) вместо просто url, чтобы решить эту проблему.

Обработка исключений NotSupported

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Обработка исключений NotSupported

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов