Как сканировать локальный HTML-файл с помощью Scrapy - PullRequest
0 голосов
/ 15 ноября 2018

Я попытался отсканировать локальный HTML-файл, хранящийся на моем рабочем столе, с помощью приведенного ниже кода, но перед процедурой сканирования я обнаружил следующие ошибки, такие как «Нет такого файла или каталога: '/robots.txt'".

  • Можно ли сканировать локальные файлы HTML на локальном компьютере (Mac)?
  • Если возможно, как я должен установить параметры, такие как "разрешенные_домены" и "начальные_урлы"?

[Команда Scrapy]

$ scrapy crawl test -o test01.csv

[Паук-скрап]

class TestSpider(scrapy.Spider):
    name = 'test'
    allowed_domains = []
    start_urls = ['file:///Users/Name/Desktop/test/test.html']

[Ошибка]

2018-11-16 01:57:52 [scrapy.core.engine] INFO: Spider opened
2018-11-16 01:57:52 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2018-11-16 01:57:52 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6024
2018-11-16 01:57:52 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying <GET file:///robots.txt> (failed 1 times): [Errno 2] No such file or directory: '/robots.txt'
2018-11-16 01:57:56 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying <GET file:///robots.txt> (failed 2 times): [Errno 2] No such file or directory: '/robots.txt'

1 Ответ

0 голосов
/ 15 ноября 2018

При работе с ним локально я никогда не указываю allowed_domains.Попробуйте вынуть эту строку кода и посмотреть, работает ли она.

По вашей ошибке он проверяет «пустой» домен, который вы ему дали.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...