Question

У меня проблема с использованием Scrapy для получения данных из результатов поиска cnn.com.Например, у нас есть ссылка https://edition.cnn.com/search/?q=war В браузере это выглядит нормально.Оболочка Scrapy возвращает что-то неудовлетворительное, когда я набираю «view (response)»: «Ваш поиск не соответствует ни одному документу. Попробуйте использовать менее ограниченные критерии поиска, и, возможно, мы сможем что-то найти».Я собирался получить все ссылки с каждой страницы результатов поиска и проанализировать каждую статью, которая соответствует заданному запросу (в данном примере «война»).

Снимки экрана:

Страницав браузере

То же самое с инструментами открытого разработчика

Командная строка

Просмотр ответа

Я нашел один несколько похожий случай: Scrapy Google Search Имеет ли мой вопрос те же корни, и cnn.com блокирует ботов?

Justo · Answer 1 · 28 февраля 2019

Эта страница не загружает данные, потому что на этой странице используется JavaScript, вы можете использовать

Переключить JavaScript расширение для загрузки страницы без JavaScript.

Вам необходимонайдите файл javascript, который загружает элементы на странице.

matthieu.cham · Answer 2 · 28 февраля 2019

Когда вы выполняете поиск на этом веб-сайте из браузера, файл cookie отправляется на сервер с данными о вашем компьютере (геолокация, язык и многое другое). Я предполагаю, что сервер выполняет запрос только в том случае, если файл cookie

Вы можете передать файл cookie в своем запросе scrapy с помощью параметра cookie = build.

Если это не удалось (например, если файл cookie содержит токен, который изменяетсякаждый раз) вы также можете попробовать очистить сайт с помощью Selenium.

Scrapy cnn.com поиск

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Scrapy cnn.com поиск

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов