Question

Я пытаюсь сканировать сайт и для этого использую Scrapy. Таким образом, при выполнении запросов к вложенным страницам процедура обычно правильно получает информацию в первых испытаниях, но при последующих запросах узлы начинают возвращать None. Я использую функциональность xpath. Ниже я вставил несколько строк функции разбора:

(Я попробовал это с подходом явного сравнения значения класса)

title = response.xpath('//span[@class="inlineFree"]/text()').extract_first()

(С этим я использовал функцию содержащий)

view = response.xpath('//span[contains(@class,"count")]/text()').extract_first()

(я тоже использовал этот, когда нашел более подходящий)

comments = response.css('div.commentMessage > span::text').extract()

Я что-то не так делаю на путях? Есть ли причина, по которой сканер должен перестать правильно читать узлы?

shovan rai · Answer 1 · 11 сентября 2018

Не могу сказать, в чем проблема без сообщений журнала или кода паука, но .. В большинстве случаев веб-сайты не следуют строгой HTML-структуре. Для некоторых свойств «заголовок» может быть внутри диапазона но для следующей итерации это может быть span [@ class = "inlineFree"] / h1 / text () или

или любой другой тег поэтому вы должны проверить HTML для тех, кто возвращает None

Xpath начинает перенастройку Нет на Scrapy

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Xpath начинает перенастройку Нет на Scrapy

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы