Scrapy cnn.com поиск - PullRequest
       5

Scrapy cnn.com поиск

0 голосов
/ 28 февраля 2019

У меня проблема с использованием Scrapy для получения данных из результатов поиска cnn.com.Например, у нас есть ссылка https://edition.cnn.com/search/?q=war В браузере это выглядит нормально.Оболочка Scrapy возвращает что-то неудовлетворительное, когда я набираю «view (response)»: «Ваш поиск не соответствует ни одному документу. Попробуйте использовать менее ограниченные критерии поиска, и, возможно, мы сможем что-то найти».Я собирался получить все ссылки с каждой страницы результатов поиска и проанализировать каждую статью, которая соответствует заданному запросу (в данном примере «война»).

Снимки экрана:

Страницав браузере

То же самое с инструментами открытого разработчика

Командная строка

Просмотр ответа

Я нашел один несколько похожий случай: Scrapy Google Search Имеет ли мой вопрос те же корни, и cnn.com блокирует ботов?

Ответы [ 2 ]

0 голосов
/ 28 февраля 2019

Эта страница не загружает данные, потому что на этой странице используется JavaScript, вы можете использовать

Переключить JavaScript расширение для загрузки страницы без JavaScript.

Вам необходимонайдите файл javascript, который загружает элементы на странице.

0 голосов
/ 28 февраля 2019

Когда вы выполняете поиск на этом веб-сайте из браузера, файл cookie отправляется на сервер с данными о вашем компьютере (геолокация, язык и многое другое). Я предполагаю, что сервер выполняет запрос только в том случае, если файл cookie

Вы можете передать файл cookie в своем запросе scrapy с помощью параметра cookie = build.

Если это не удалось (например, если файл cookie содержит токен, который изменяетсякаждый раз) вы также можете попробовать очистить сайт с помощью Selenium.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...