Я пытаюсь очистить:
https://webmd.com/oral-health/oral-lichen-planus#1 с веб-сайта webmd в следующем коде веб-страницы:
<li class="global-nav-sign-in global-nav-hide-mobile" data-metrics-module="">
<a href="https://member.webmd.com/signin?appid=1&returl=https://www.webmd.com/oral-health/oral-lichen-planus#1" data-metrics-link="reg-login">Sign In</a>
</li>
Для этого я использую следующий код scrapy:
import scrapy
import re
import string
import pandas as pd
class HealthItem(scrapy.Item):
link = scrapy.Field()
def urls_getter():
fname = "/home/phil/fd/webmd/health.csv"
pds = pd.read_csv(fname)
pds_link = pds['link']
pds_link = pds_link.drop_duplicates(keep = "first", inplace = False)
pds_link = pds_link.tolist()
return pds_link
class SymptommdSpider(scrapy.Spider):
name = "symptommd"
allowed_domains = ["webmd.com"]
start_urls = urls_getter()
def parse(self, response):
titles = response.xpath('//li[contains(@class, "global-nav-sign-in")]/a[contains(@href, "https:")]')
for title in titles:
item = HealthItem()
item['link'] = title.xpath('@href').extract()
yield item
Однако этот код получает только переднюю часть href.А именно, https://member.webmd.com/signin. Как получить только вторую веб-ссылку?