Паук Python Scrapy сканирует URL, но ничего не возвращает - PullRequest
0 голосов
/ 15 июня 2019

Я пытаюсь разобрать сайт .Это мой первый проект со scrapy, и я новичок в python.Используя эту статью , я просканировал один URL и не получил от него никаких данных.

Я попробовал несколько разных запросов xpath и изменил USER_AGENT в настройках, но он все равно ничего не возвращает.

Это часть кода, которая описывает то, что я пытаюсь проанализировать:

        def parse(self, response):
    SET_SELECTOR = '.set'
    for brickset in response.css(SET_SELECTOR):

        TITLE_SELECTOR= '//head//title/text'
        DATE_SELECTOR= '//table/tbody[2]//td[2]//text()'
        TEMP_SELECTOR= '//table/tbody[2]/tr[1]/td[1]//text()'
        yield {
            'title': brickset.xpath(TITLE_SELECTOR).extract_first(),
            'date': brickset.xpath(DATE_SELECTOR).extract_first(),
            'temp1':brickset.xpath(TEMP_SELECTOR).extract_first(),
        }

Это данные из командной строки:

 DEBUG: Crawled (200) <GET https://www.gismeteo.ru/diary/4368/2019/6/> (referer: None)

1 Ответ

0 голосов
/ 15 июня 2019

Вы просто установили неправильный селектор.Я проверил это для вас:

    def parse(self, response):
        TITLE_SELECTOR= '//div[@id="page_title"]//text()'
        DATE_SELECTOR= '//table//tbody[1]//text()'

        yield {
            'title': response.xpath(TITLE_SELECTOR).extract_first(),
            'date': response.xpath(DATE_SELECTOR).extract(),
        }
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...