Очистка данных с помощью скрапа - PullRequest
0 голосов
/ 02 декабря 2018

Я пытаюсь очистить данные по следующей ссылке https://timesofindia.indiatimes.com/archive/year-2018,month-1.cms. В частности, я пытаюсь взять URL-адреса, присутствующие в таблице календаря.Мой текущий код для этого

response.xpath('//*[@id="calender"]//a/@href').extract() 

Но это не дает мне никаких результатов.Куда я иду не так и каково будет решение?

1 Ответ

0 голосов
/ 02 декабря 2018

Если вы посмотрите на источник страницы, то увидите, что ссылки, которые вы пытаетесь извлечь, не существуют.
Вместо этого есть блок javascript, который генерирует их.

У вас есть две возможности для очистки этих данных:

  • Выясните, что делает код js, и вместо этого сделайте это с вашим кодом Python
  • Получите что-то (например, браузер) для выполненияJS код и дать вам полученный HTML
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...