Question

Я пытаюсь научиться scrapy и python.URL, который я использую: https://www.riddles.com/jokes-and-riddles В консоли conda response.css работает нормально и извлекает слова «Загадка».Но при попытке запустить spyder в Visual Studio он загружает все и работает, но данные не экспортируются.

Spider

import scrapy
from ..items import BookItem 

class BookSpiderSpider(scrapy.Spider):
    name = "book_spider"
    start_urls = (
        'https://www.riddles.com/jokes-and-riddles',
    )

def parse(self, response) :
    items = BookItem()

    title_name = response.css('span.hidden-print::text').extract()

    items['title_name'] = title_name

    yield items

items

import scrapy


class BookItem(scrapy.Item):

    title_name = scrapy.Field()
    pass

console

(scrapper) C:\Users\Naked\tutorial\book\book>scrapy crawl book_spider
2019-05-02 14:07:04 [scrapy] INFO: Scrapy 1.1.1 started (bot: book)
2019-05-02 14:07:04 [scrapy] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'book.spiders',
'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['book.spiders'], 'BOT_NAME': 'book'}
2019-05-02 14:07:05 [scrapy] INFO: Enabled extensions:
['scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.logstats.LogStats',
 'scrapy.extensions.corestats.CoreStats']
2019-05-02 14:07:05 [scrapy] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.chunked.ChunkedTransferMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2019-05-02 14:07:05 [scrapy] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2019-05-02 14:07:05 [scrapy] INFO: Enabled item pipelines:
[]
2019-05-02 14:07:05 [scrapy] INFO: Spider opened
2019-05-02 14:07:05 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2019-05-02 14:07:05 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6024
2019-05-02 14:07:06 [scrapy] DEBUG: Crawled (200) <GET https://www.riddles.com/robots.txt> (referer: None)
2019-05-02 14:07:07 [scrapy] DEBUG: Crawled (200) <GET https://www.riddles.com/jokes-and-riddles> (referer: None)
2019-05-02 14:07:07 [scrapy] ERROR: Spider error processing <GET https://www.riddles.com/jokes-and-riddles> (referer: None)
Traceback (most recent call last):
  File "C:\Users\Naked\Anaconda3\envs\scrapper\lib\site-packages\twisted\internet\defer.py",
line 651, in _runCallbacks
    current.result = callback(current.result, *args, **kw)
  File "C:\Users\Naked\Anaconda3\envs\scrapper\lib\site-packages\scrapy\spiders\__init__.py", line 76, in parse
    raise NotImplementedError
NotImplementedError
2019-05-02 14:07:07 [scrapy] INFO: Closing spider (finished)
2019-05-02 14:07:07 [scrapy] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 453,
 'downloader/request_count': 2,
 'downloader/request_method_count/GET': 2,
 'downloader/response_bytes': 32139,
 'downloader/response_count': 2,
 'downloader/response_status_count/200': 2,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2019, 5, 2, 11, 7, 7, 302220),
 'log_count/DEBUG': 3,
 'log_count/ERROR': 1,
 'log_count/INFO': 7,
 'response_received_count': 2,
 'scheduler/dequeued': 1,
 'scheduler/dequeued/memory': 1,
 'scheduler/enqueued': 1,
 'scheduler/enqueued/memory': 1,
 'spider_exceptions/NotImplementedError': 1,
 'start_time': datetime.datetime(2019, 5, 2, 11, 7, 5, 824498)}
2019-05-02 14:07:07 [scrapy] INFO: Spider closed (finished)

Извините за большой объем кода, просто хотел все объяснить.

Luiz Rodrigues da Silva · Answer 1 · 02 мая 2019

Вы уверены, что код паука, вставленный здесь, имеет хороший отступ?Потому что, если это не так, то в этом и заключается ваша ошибка.

Python использует отступ для ограничения области действия класса или функции, в вашем коде метод parse находится вне области действия вашего паука класса.

Если вы знакомы с другими языками, это эквивалентно следующему:

class Example {
}

function parse {
}

вместо

class Example {
    function parse {
    }
}

Если вы видите журнал ERROR, вы можете отсортироватьвыяснить, что происходит:

Файл "C: \ Users \ Naked \ Anaconda3 \ envs \ scrapper \ lib \ site-packages \ scrapy \ spiders__init __. py", строка 76, в разборе

повышение NotImplementedError

Не лучшее сообщение об ошибке, поскольку оно указывает на файл вне вашего проекта, но дает подсказку.

Таким образом, решение имеет отступваш код так:

class BookSpiderSpider(scrapy.Spider):
    name = "book_spider"
    start_urls = (
        'https://www.riddles.com/jokes-and-riddles',
    )

    def parse(self, response) :
        items = BookItem()

        title_name = response.css('span.hidden-print::text').extract()

        items['title_name'] = title_name

        yield items

shovan rai · Answer 2 · 02 мая 2019

Проверьте данный код, также CSS возвращал «загадку» в качестве заголовка для каждой загадки. Также не забудьте добавить allow_domains и использовать []

import scrapy
from ..items import BookItem


class BookSpiderSpider(scrapy.Spider):
    name = 'book_spider'
    allowed_domains = ['www.riddles.com']
    start_urls = ['https://www.riddles.com/jokes-and-riddles']


    def parse(self, response) :
        items = BookItem()

        title_name = response.xpath('//blockquote[@class="orange_dk_blockquote hidden-print"]/p/text()').extract()

        items['title_name'] = title_name

        yield items

Консоль не экспортирует никакие очищенные данные

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Консоль не экспортирует никакие очищенные данные

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов