Scrap wide crawl, возвращающий ошибку "filedescriptor вне диапазона в select ()" - PullRequest
0 голосов
/ 20 октября 2019

Я пытаюсь выполнить простой широкий обход на 2000 доменов с помощью Scrapy.

У меня есть 4 списка по 500 доменов в каждом, тогда я просто запускаю process.crawl в этих 4 списках. Сейчас я просто удаляю их домашнюю страницу.

Проблема в том, что после 1000 первых доменов я начинаю получать следующую ошибку ("filedescriptor out of range in select ()"):

2019-10-20 00:24:59 [scrapy.core.scraper] ERROR: Error downloading <GET https://www.******.com>
Traceback (most recent call last):
  File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/site-packages/scrapy/core/downloader/middleware.py", line 44, in process_request
    defer.returnValue((yield download_func(request=request, spider=spider)))
twisted.internet.error.ConnectError: An error occurred while connecting: [Failure instance: Traceback: <class 'ValueError'>: filedescriptor out of range in select()

Примечание: заменил домен на ****** в ошибке

Ниже моя функция:

import scrapy
class scan_scripts(scrapy.Spider):

    name = 'scan_scripts'

    custom_settings = {
        'CONCURRENT_REQUESTS': 500,
        'CONCURRENT_REQUESTS_PER_DOMAIN': 25,
        'CONCURRENT_ITEMS': 50,
        'REACTOR_THREADPOOL_MAXSIZE': 500,
        'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)',
        'LOG_LEVEL': 'ERROR',
        'HTTPCACHE_ENABLED': False,
        'COOKIES_ENABLED': False,
        'SCHEDULER_PRIORITY_QUEUE': 'scrapy.pqueues.DownloaderAwarePriorityQueue',
        'RETRY_ENABLED': False,
        'DOWNLOAD_TIMEOUT': 15,
        'REDIRECT_ENABLED': False,
        'AJAXCRAWL_ENABLED': True,
        'DEPTH_PRIORITY': 1,
        'SCHEDULER_DISK_QUEUE': 'scrapy.squeues.PickleFifoDiskQueue',
        'SCHEDULER_MEMORY_QUEUE': 'scrapy.squeues.FifoMemoryQueue'
    }

    def start_requests(self):

        for domain in self.domains:
            yield scrapy.Request("https://" + domain, self.parse)

    def parse(self, response):

        print('### SCANNED: %s', (response.request.url))

Затем я запускаю это:

process = CrawlerProcess({})

process.crawl(scan_scripts, domains=domains_list1)
process.crawl(scan_scripts, domains=domains_list2)
process.crawl(scan_scripts, domains=domains_list3)
process.crawl(scan_scripts, domains=domains_list4)

process.start()
...