извлекать текст с помощью xpath из нескольких источников - PullRequest
0 голосов
/ 08 марта 2020

Я построил скребок для извлечения текста из 3 сайтов для моего проекта. Я хочу использовать одного паука для 3 сайтов. 2 сайта имеют содержание в этой структуре:

<div id="site1">
   <p> this is a test </p>
</div>

<div id="site2">
   <p> this is a test </p>
</div>

, и один имеет это:

<div class="site3">
   <p> <span> this is a test </span> </p>
</div>

Я могу извлечь текст из 2 сайтов, используя это:

response.xpath('//div[@id="site1" or @id="site2" or @class="site3"]//p/text()').extract()

Как мне изменить этот код для извлечения текста с сайта3?

1 Ответ

1 голос
/ 08 марта 2020
response.xpath('//div[@id="site1" or @id="site2"]//p/text() | //div[@class="site3"]//p/span/text()').extract() 
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...