Question

Я пытаюсь почистить новостные статьи о финансах Yahoo и сделать это, я хочу использовать их страницу карты сайта https://finance.yahoo.com/sitemap/

У меня проблема в том, что после перехода по ссылке https://finance.yahoo.com/sitemap/2015_04_02например, scrapy не обрабатывает всю страницу - только заголовок. Поэтому я не могу получить доступ к ссылкам на разные статьи. Есть ли какие-то внутренние запросы, которые я должен отправить на страницу?

Я все еще получаю всю страницу, отключив JavaScript в своем браузере, и я использую scrapy 1.6

Спасибо.

mario_sunny · Answer 1 · 04 ноября 2019

Некоторые сайты принимают защитные меры против роботов, скребущих свои сайты. Если они обнаружат, что вы не человек, они могут не обслуживать всю страницу. Но, скорее всего, происходит то, что при просмотре страницы в веб-браузере происходит куча рендеринга на стороне клиента, которая не выполняется, когда вы запрашиваете эту же страницу в scrapy.

Yahoo! Финансы имеют API . Использование этого, вероятно, даст вам более надежные результаты.

Страницы не обрабатываются полностью

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Страницы не обрабатываются полностью

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов