Создавая паука с помощью Scrapy, я столкнулся с чем-то, что мне, кажется, не удалось преодолеть.
for quote in response.css('div.entry-content'):
yield {
'title': quote.css('h3.widget-title::text').extract_first(),
'text': quote.css('div p::text').extract_first(),
Это то, что я хочу извлечь, поэтому получаю p
и title
от div.panel-layout
, но как только p
достигает strong
или что-то внутри, сказанное p
, соскоб заканчивается на этой странице.
Дать (текст) пример будет
The class **LocalTime**
, после чего паук заканчивает действие после встречи с LocalTime как strong
.
Я пытался добавить p::text strong::text
, но, похоже, не могу обойти это. Как бы мне обойти эту проблему, советы и подсказки более чем приветствуются.
Edit1: я частично решил проблему, удалив ::text
из p::text
, но теперь он дает мне код для всего, что внутри него, следующим образом <p> The class <strong>LocalTime</strong> ... </p>