Где на самом деле Scrapy делает запрос HTML? - PullRequest
0 голосов
/ 13 марта 2019

Я использую библиотеку Scrapy (Scrapy == 1.6.0) с Python3.Мне интересно, где в коде Scrapy фактически выполняет HTML-запрос?Я хочу установить точку останова, чтобы я мог точно видеть, какие заголовки / cookie / urls / и пользовательский агент фактически передаются.

Кроме того, где именно также получен ответ?Прямо сейчас мой паук не может найти какие-либо страницы, поэтому я предполагаю, что получаю либо пустой HTML-документ, либо ошибку 403, однако я не знаю, где искать, чтобы подтвердить это.

Может кто-нибудь знаком сбиблиотека scrapy указывает мне, где именно в коде я могу проверить эти параметры?

1 Ответ

0 голосов
/ 13 марта 2019

Полагаю, вы можете проверить метод scrapy / core / engine.py _download. Хотя я бы посоветовал вам использовать скрап-оболочку. Это позволит вам выполнить конкретный запрос, проверить ответ, открыть ответ в браузере, чтобы увидеть, что было получено Scrapy. Кроме того, с немного большей настройкой вы можете импортировать вашего паука в вашу оболочку, вызвать определенный метод вашего паука и поставить точку останова там.

Если вашему пауку не удается найти какие-либо страницы, проблема, скорее всего, связана с вашим пауком, а не с фреймворком.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...