Страницы не обрабатываются полностью - PullRequest
0 голосов
/ 04 ноября 2019

Я пытаюсь почистить новостные статьи о финансах Yahoo и сделать это, я хочу использовать их страницу карты сайта https://finance.yahoo.com/sitemap/

У меня проблема в том, что после перехода по ссылке https://finance.yahoo.com/sitemap/2015_04_02например, scrapy не обрабатывает всю страницу - только заголовок. Поэтому я не могу получить доступ к ссылкам на разные статьи. Есть ли какие-то внутренние запросы, которые я должен отправить на страницу?

Я все еще получаю всю страницу, отключив JavaScript в своем браузере, и я использую scrapy 1.6

Спасибо.

1 Ответ

0 голосов
/ 04 ноября 2019

Некоторые сайты принимают защитные меры против роботов, скребущих свои сайты. Если они обнаружат, что вы не человек, они могут не обслуживать всю страницу. Но, скорее всего, происходит то, что при просмотре страницы в веб-браузере происходит куча рендеринга на стороне клиента, которая не выполняется, когда вы запрашиваете эту же страницу в scrapy.

Yahoo! Финансы имеют API . Использование этого, вероятно, даст вам более надежные результаты.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...