Невозможно запустить "цитаты сканирования сканирования" - PullRequest
0 голосов
/ 24 января 2019

Невозможно заставить учебник по Scrapy работать.

Я пытаюсь научиться Scrapy, но не могу запустить даже учебник.Я пытался запустить это в Python 3.7 и 3.5.5 с теми же результатами

импорт scrapy

класс QuotesSpider (scrapy.Spider): name = "quotes"

def start_requests(self):
    urls = [
        'http://quotes.toscrape.com/page/1/',
        'http://quotes.toscrape.com/page/2/',
    ]
    for url in urls:
        yield scrapy.Request(url=url, callback=self.parse)

def parse(self, response):
    page = response.url.split("/")[-2]
    filename = 'quotes-%s.html' % page
    with open(filename, 'wb') as f:
        f.write(response.body)
    self.log('Saved file %s' % filename)

Похоже, что это нормально.По крайней мере, он не выдает никаких ошибок.

Когда я запускаю "цитаты сканирования сканирования" в окне приглашения Anaconda, я получаю следующее:

"hed) C:\Users\userOne\python script files\scrapy\tutorial>scrapy crawl 
 quotes
 2019-01-23 18:34:27 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: 
 tutorial)
 2019-01-23 18:34:27 [scrapy.utils.log] INFO: Versions: lxml 4.2.3.0, libxml2 
 2.9.5, cssselect 1.0.3, parsel 1.5.0, w3lib 1.19.0, Twisted 18.7.0, Python 
 3.5.5 | packaged by conda-forge | (default, Jul 24 2018, 01:52:17) [MSC 
 v.1900 64 bit (AMD64)], pyOpenSSL 18.0.0 (OpenSSL 1.0.2p  14 Aug 2018), 
 cryptography 2.3.1, Platform Windows-10-10.0.17134-SP0
 Traceback (most recent call last):
   File "C:\Users\userOne\Anaconda3\envs\hed\lib\site- packages\scrapy\spiderloader.py", line 69, in load
     return self._spiders[spider_name]
 KeyError: 'quotes'

 During handling of the above exception, another exception occurred:

 Traceback (most recent call last):
   File "C:\Users\userOne\Anaconda3\envs\hed\Scripts\scrapy-script.py", line 
 10, in <module>
     sys.exit(execute())
   File "C:\Users\userOne\Anaconda3\envs\hed\lib\site- packages\scrapy\cmdline.py", line 150, in execute
     _run_print_help(parser, _run_command, cmd, args, opts)
   File "C:\Users\userOne\Anaconda3\envs\hed\lib\site- packages\scrapy\cmdline.py", line 90, in _run_print_help
     func(*a, **kw)
   File "C:\Users\userOne\Anaconda3\envs\hed\lib\site- packages\scrapy\cmdline.py", line 157, in _run_command
     cmd.run(args, opts)
   File "C:\Users\userOne\Anaconda3\envs\hed\lib\site- packages\scrapy\commands\crawl.py", line 57, in run
     self.crawler_process.crawl(spname, **opts.spargs)
   File "C:\Users\userOne\Anaconda3\envs\hed\lib\site- packages\scrapy\crawler.py", line 170, in crawl
     crawler = self.create_crawler(crawler_or_spidercls)
   File "C:\Users\userOne\Anaconda3\envs\hed\lib\site- packages\scrapy\crawler.py", line 198, in create_crawler
     return self._create_crawler(crawler_or_spidercls)
   File "C:\Users\userOne\Anaconda3\envs\hed\lib\site- packages\scrapy\crawler.py", line 202, in _create_crawler
     spidercls = self.spider_loader.load(spidercls)
   File "C:\Users\userOne\Anaconda3\envs\hed\lib\site- packages\scrapy\spiderloader.py", line 71, in load
     raise KeyError("Spider not found: {}".format(spider_name))
 KeyError: 'Spider not found: quotes'

"

Вывод должен бытьпримерно так:

"016-12-16 21:24:05 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2016-12-16 21:24:05 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2016-12-16 21:24:05 [scrapy.core.engine] DEBUG: Crawled (404) <GET http://quotes.toscrape.com/robots.txt> (referer: None)
2016-12-16 21:24:05 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com/page/1/> (referer: None)
2016-12-16 21:24:05 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com/page/2/> (referer: None)
2016-12-16 21:24:05 [quotes] DEBUG: Saved file quotes-1.html
2016-12-16 21:24:05 [quotes] DEBUG: Saved file quotes-2.html
2016-12-16 21:24:05 [scrapy.core.engine] INFO: Closing spider (finished)"

Заранее благодарен за любую помощь, которую вы можете оказать.

Ответы [ 2 ]

0 голосов
/ 31 мая 2019

Мне кажется, я нашел ответ. В учебнике не упоминается один шаг, который упоминается в командной строке только после создания проекта с помощью

scrapy startproject tutorial

Вывод этой команды, помимо создания учебного проекта,

You can start your first spider with:
cd tutorial
scrapy genspider example example.com

Чтобы учебник работал, вам нужно ввести

scrapy genspider quotes quotes.toscrape.com
0 голосов
/ 08 февраля 2019

Возможно, ваш исходный код был помещен в неправильный каталог?

У меня была очень похожая, если не та же самая проблема. (Я не использую Anaconda, но ошибка была также «строка 69, возвращаемая при загрузке self._spiders [spider_name] KeyError: 'quotes'".

Что для меня исправило, так это перемещение файла исходного кода (quotes_spider.py) из каталога имя_проекта / tutorial / tutorial в каталог имя_проекта / tutorial / tutorial / spiders.

Со страницы учебника. , , «Это код для нашего первого Spider. Сохраните его в файле с именем quotes_spider.py в каталоге tutorial / spiders в вашем проекте»

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...