Как выбрать весь контент с помощью селектора Xpath в Scarpy - PullRequest
0 голосов
/ 28 октября 2018

Здравствуйте, я просматривал сайт, но потом столкнулся с проблемами из-за структуры сайта,

Вот одна страница сайта https://www.dehatilyrics.top/2018/09/dilli-wali-gori-ridam-tripathi-lyrics.html

Я хочу получитьОсновная часть контента, за исключением части «Информация о песне», как вы можете видеть, есть много тегов span, я не могу понять, как получить всю страницу сразу.

Вот что я пробовал,

response.xpath('//*[@class="post-body entry-content"]/div[1]/span/text()').extract()

Это вернуло мне часть всего контента, нижняя часть Как получить весь контент

1 Ответ

0 голосов
/ 28 октября 2018

Под информацией о песне вы имеете в виду эту часть?

Song :- Dilli Wali Gori 
Singer :- Ridam Tripathi
Lyrics & Composition :- Ridam Tripathi
Music Director :- Ajay Verma "AV"
Video Director :- Shunty
Dop :- Govind Bist
Company/ Label :- Wave

Так как она находится в первом span, так что вы можете исключить ее, используя нарезку списка,

Вы можете получить ее какthis

entire_body = " ".join(response.xpath('//*[@class="post-body entry-content"]/div[1]/span//text()').extract()[1:])
entire_body = "".join(entire_body)

Вы всегда можете сделать это, чтобы проверить селекторы / Xpaths

enter image description here

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...