Оболочка Scrapy не сканирует веб-страницу - PullRequest
0 голосов
/ 31 декабря 2018

Я пытаюсь использовать оболочку Scrapy, чтобы попытаться определить селекторы для zone-h.org.После этого я запускаю scrapy shell 'webpage', пытаясь просмотреть содержимое, чтобы убедиться, что оно загружено.Но все, что я вижу, это значок тире (-).Он не загружает страницу.Я пытался зайти на сайт, чтобы проверить, не заблокировано ли какое-либо соединение с сайтом, но оно было доступно.Я попытался настроить пользовательский агент на что-то более общее, например, Chrome, но и там мне не повезло.Сайт как-то блокирует меня, но я не знаю, как мне обойти это.Я просмотрел веб-сайт, если они блокируют сканирование, и он не говорит, что это запрещено сканировать.Кто-нибудь может помочь?

Ответы [ 2 ]

0 голосов
/ 31 декабря 2018

Можете ли вы использовать scrapy shell "webpage" на другой веб-странице, которая, как вы знаете, работает / не блокирует очистку?

Вы пытались использовать команду view(response), чтобы открыть то, что scrapy видит в веб-браузере?

Когда вы переходите на веб-страницу с помощью обычного браузера, вы перенаправляетесь на другую, последнюю домашнюю страницу?- если это так, попробуйте использовать URL-адрес последней домашней страницы в команде scrapy shell

Есть ли у вас брандмауэры, которые могут помешать подключению приложения Python / командной строки к Интернету?

0 голосов
/ 31 декабря 2018

У вас, паук, есть проблема с файлами cookie, если вы отправите файлы cookie с вашим запросом, то получите необходимые данные.

Это можно увидеть на прилагаемой картинке.request with cookie

...