Xpath начинает перенастройку Нет на Scrapy - PullRequest
0 голосов
/ 09 сентября 2018

Я пытаюсь сканировать сайт и для этого использую Scrapy. Таким образом, при выполнении запросов к вложенным страницам процедура обычно правильно получает информацию в первых испытаниях, но при последующих запросах узлы начинают возвращать None. Я использую функциональность xpath. Ниже я вставил несколько строк функции разбора:

(Я попробовал это с подходом явного сравнения значения класса)

title = response.xpath('//span[@class="inlineFree"]/text()').extract_first()

(С этим я использовал функцию содержащий)

view = response.xpath('//span[contains(@class,"count")]/text()').extract_first()

(я тоже использовал этот, когда нашел более подходящий)

comments = response.css('div.commentMessage > span::text').extract()

Я что-то не так делаю на путях? Есть ли причина, по которой сканер должен перестать правильно читать узлы?

1 Ответ

0 голосов
/ 11 сентября 2018

Не могу сказать, в чем проблема без сообщений журнала или кода паука, но .. В большинстве случаев веб-сайты не следуют строгой HTML-структуре. Для некоторых свойств «заголовок» может быть внутри диапазона но для следующей итерации это может быть span [@ class = "inlineFree"] / h1 / text () или

или любой другой тег поэтому вы должны проверить HTML для тех, кто возвращает None

...