Scrapy: соединение отказано - PullRequest
       7

Scrapy: соединение отказано

6 голосов
/ 16 февраля 2011

Я получаю сообщение об ошибке при попытке проверить установку scrapy:

$ scrapy shell http://www.google.es
j2011-02-16 10:54:46+0100 [scrapy] INFO: Scrapy 0.12.0.2536 started (bot: scrapybot)
2011-02-16 10:54:46+0100 [scrapy] DEBUG: Enabled extensions: TelnetConsole, SpiderContext, WebService, CoreStats, MemoryUsage, CloseSpider
2011-02-16 10:54:46+0100 [scrapy] DEBUG: Enabled scheduler middlewares: DuplicatesFilterMiddleware
2011-02-16 10:54:46+0100 [scrapy] DEBUG: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, RedirectMiddleware, CookiesMiddleware, HttpProxyMiddleware, HttpCompressionMiddleware, DownloaderStats
2011-02-16 10:54:46+0100 [scrapy] DEBUG: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware
2011-02-16 10:54:46+0100 [scrapy] DEBUG: Enabled item pipelines: 
2011-02-16 10:54:46+0100 [scrapy] DEBUG: Telnet console listening on 0.0.0.0:6023
2011-02-16 10:54:46+0100 [scrapy] DEBUG: Web service listening on 0.0.0.0:6080
2011-02-16 10:54:46+0100 [default] INFO: Spider opened
2011-02-16 10:54:47+0100 [default] DEBUG: Retrying <GET http://www.google.es> (failed 1 times): Connection was refused by other side: 111: Connection refused.
2011-02-16 10:54:47+0100 [default] DEBUG: Retrying <GET http://www.google.es> (failed 2 times): Connection was refused by other side: 111: Connection refused.
2011-02-16 10:54:47+0100 [default] DEBUG: Discarding <GET http://www.google.es> (failed 3 times): Connection was refused by other side: 111: Connection refused.
2011-02-16 10:54:47+0100 [default] ERROR: Error downloading <http://www.google.es>: [Failure instance: Traceback (failure with no frames): <class 'twisted.internet.error.ConnectionRefusedError'>: Connection was refused by other side: 111: Connection refused.
    ]
2011-02-16 10:54:47+0100 [scrapy] ERROR: Shell error
    Traceback (most recent call last):
    Failure: scrapy.exceptions.IgnoreRequest: Connection was refused by other side: 111: Connection refused.

2011-02-16 10:54:47+0100 [default] INFO: Closing spider (shutdown)
2011-02-16 10:54:47+0100 [default] INFO: Spider closed (shutdown)

Версии:

  • Scrapy 0.12.0.2536
  • Python 2.6.6
  • ОС: Ubuntu 10.10

РЕДАКТИРОВАТЬ: я могу связаться с ним через мой браузер, wget, telnet google.es 80, и это происходит со всеми сайтами.

Ответы [ 3 ]

8 голосов
/ 08 января 2012

Миссия 1: Scrapy отправит пользователю с «ботом».Сайты также могут блокироваться на основе пользовательского агента.

Попробуйте переопределить USER_AGENT в settings.py

Например: USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64; rv:7.0.1) Gecko/20100101 Firefox/7.7'

Миссия 2: Попробуйте задать задержку между запросами, чтобы подделать, что человек отправляет запрос.

DOWNLOAD_DELAY = 0.25 

Миссия 3: Если ничего не работает, установите wireshark и просмотрите разницу в заголовке запроса (или) публикуйте данные во время отправки scrapy и когда ваш браузер отправляет.

1 голос
/ 20 декабря 2014

Возможно, проблема с сетевым подключением.

Прежде всего, проверьте подключение к интернету.

Если вы получаете доступ к сети через прокси-сервер, вам следует добавить фрагмент кода в свой проект scrapy (http://doc.scrapy.org/en/latest/topics/downloader-middleware.html#scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware)

В любом случае, попробуйте обновить версию Scrapy.

0 голосов
/ 19 октября 2018

Я тоже получил эту ошибку.Оказалось, что причина в том, что порт, к которому я обращался, был заблокирован брандмауэром.Мой сервер заблокировал порты по умолчанию, если он не включен в белый список.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...