scrap застрял в DEBUG: консоль Telnet прослушивает 127.0.0.1 - PullRequest
0 голосов
/ 15 декабря 2018

Я вычеркиваю html, но удачный, но всплеск.

Не знаю, почему не удается сканировать.

Код, использующий всплеск ниже,

import scrapy
from scrapy_splash import SplashRequest


class Spidernav(scrapy.Spider):
name = "navarea"

def start_requests(self):
    urls = [
        'http://www1.kaiho.mlit.go.jp/TUHO/keiho/navarea11_en.html?fbclid=IwAR0NCPNZb0esQcqHL9nWPt9NaB9FaKhRU769_sdiUfsOJY8Rf-rOUmkFAWA'
    ]
    splash_args = {'wait': 0.5}
    for url in urls:
        yield SplashRequest(url=url, callback=self.parse, args=splash_args, endpoint='render.html')

def parse(self, response):
    logging.info('done')

    # filename = 'navarea.html'
    # with open(filename, 'wb') as f:
    #     f.write(response)
    # self.log('Saved file %s' % filename)

, но этовсегда застрял здесь, не продолжал:

2018-12-15 12:57:18 [scrapy.core.engine] INFO: Spider opened
2018-12-15 12:57:18 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2018-12-15 12:57:18 [navarea] INFO: Spider opened: navarea
2018-12-15 12:57:18 [navarea] INFO: Spider opened: navarea
2018-12-15 12:57:18 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6032

и через несколько минут, это показывает это позади:

2018-12-15 12:58:18 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2018-12-15 12:58:33 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying <GET http://www1.kaiho.mlit.go.jp/TUHO/keiho/navarea11_en.html?fbclid=IwAR0NCPNZb0esQcqHL9nWPt9NaB9FaKhRU769_sdiUfsOJY8Rf-rOUmkFAWA via http://192.168.203.92:8050/render.html> (failed 1 times): TCP connection timed out: 60: Operation timed out.
...