Question

Я пытаюсь очистить данные по следующей ссылке https://timesofindia.indiatimes.com/archive/year-2018,month-1.cms. В частности, я пытаюсь взять URL-адреса, присутствующие в таблице календаря.Мой текущий код для этого

response.xpath('//*[@id="calender"]//a/@href').extract()

Но это не дает мне никаких результатов.Куда я иду не так и каково будет решение?

stranac · Answer 1 · 02 декабря 2018

Если вы посмотрите на источник страницы, то увидите, что ссылки, которые вы пытаетесь извлечь, не существуют.
Вместо этого есть блок javascript, который генерирует их.

У вас есть две возможности для очистки этих данных:

Выясните, что делает код js, и вместо этого сделайте это с вашим кодом Python
Получите что-то (например, браузер) для выполненияJS код и дать вам полученный HTML

Очистка данных с помощью скрапа

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Очистка данных с помощью скрапа

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов