При сканировании текста с веб-сайта с использованием scrapy, будет сканироваться весь контент, но не будет сканироваться контент ссылок, как решить проблему - PullRequest
0 голосов
/ 10 марта 2020

при сканировании полного содержимого данных не сканируется, здесь содержимое тега не сканируется, а также как сканировать тег href за раз.

Html .code

<p class="gnt_ar_b_p">
24/7 Tempo has compiled a list of drugs in short supply from information provided by the 
   <p class="gnt_ar_b_p">
   However, drugs are frequently announced to be in short supply. In 
   fact, the FDA has a running list of drug shortages due to anything from increasing demand 
   to regulatory factors as well as supply disruptions.
   </p>
  <a href="https://www.accessdata.fda.gov/scripts/drugshortages/default.cfm" data-t- 
   l="|inline|intext|n/a" class="gnt_ar_b_a">
   Food and Drug Administration</a>.
</p>

оболочка

response.css('p.gnt_ar_b_p').xpath("text()").extract()

выход

24/7 Tempo has compiled a list of drugs in short supply from information provided by the 
However, drugs are frequently announced to be in short supply. In 
fact, the FDA has a running list of drug shortages due to anything from increasing demand 
to regulatory factors as well as supply disruptions.
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...