Я выполнял свой код scrapy очень хорошо, пока не получил ошибку о том, что не нашел свой модуль при вызове «файла сканирования scrapy». Я не вспомнил, что менял что-то важное, и эта ошибка появилась из ниоткуда.
Я переустановил scrapy и теперь у меня появляется новая ошибка:
2019-05-27 17:39:19 [scrapy.core.engine] INFO: Spider opened
Unhandled error in Deferred:
2019-05-27 17:39:19 [twisted] CRITICAL: Unhandled error in Deferred:
Traceback (most recent call last):
File "c:\users\Me\virtual_workspace\lib\site-packages\scrapy\crawler.py", line 172, in crawl
return self._crawl(crawler, *args, **kwargs)
File "c:\users\Me\virtual_workspace\lib\site-packages\scrapy\crawler.py", line 176, in _crawl
d = crawler.crawl(*args, **kwargs)
File "c:\users\Me\virtual_workspace\lib\site-packages\twisted\internet\defer.py", line 1613, in unwindGenerator
return _cancellableInlineCallbacks(gen)
File "c:\users\Me\virtual_workspace\lib\site-packages\twisted\internet\defer.py", line 1529, in _cancellableInlineCallbacks
_inlineCallbacks(None, g, status)
--- <exception caught here> ---
File "c:\users\Me\virtual_workspace\lib\site-packages\twisted\internet\defer.py", line 1418, in _inlineCallbacks
result = g.send(result)
File "c:\users\Me\virtual_workspace\lib\site-packages\scrapy\crawler.py", line 82, in crawl
yield self.engine.open_spider(self.spider, start_requests)
builtins.ImportError: DLL load failed: The specified module could not be found.
2019-05-27 17:39:19 [twisted] CRITICAL:
Traceback (most recent call last):
File "c:\users\Me\virtual_workspace\lib\site-packages\twisted\internet\defer.py", line 1418, in _inlineCallbacks
result = g.send(result)
File "c:\users\Me\virtual_workspace\lib\site-packages\scrapy\crawler.py", line 82, in crawl
yield self.engine.open_spider(self.spider, start_requests)
ImportError: DLL load failed: The specified module could not be found.
Я попытался заглянуть в каталоги файлов, и файл crawler.py все еще там. В некоторых других сообщениях говорилось, что я должен установить pywin32, но у меня уже было это, поэтому я переустанавливал безрезультатно. Я даже скопировал базовый конструктор в мой, и он все еще не работает. Любая помощь приветствуется.
Мой упрощенный код:
import scrapy
from scrapy_splash import SplashRequest
import requests
import xml.etree.ElementTree as ET
import math
from datetime import date
from collections import deque
class mySpider(scrapy.Spider):
name = 'myScraper'
#requests
def start_requests(self):
urls = [
'https://www.msn.com/en-ca/'
]
self.link_queue = deque()
self.headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36 OPR/60.0.3255.109'}
for url in urls:
yield SplashRequest(url=url, callback=self.parse, endpoint = 'render.html', args = {'wait': 7}, headers = self.headers)
#response
def parse(self, response):
pass