Я новичок в питоне / скрапе.Мой вопрос похож на этот вопрос, но я не могу придумать ответ, который работает:
Как Scrapy извлекает текст внутри класса, который внутри атрибута?
Вотмой код:
import scrapy class IndeedSpider(scrapy.Spider): name='indeed_jobs' start_urls = ['https://www.indeed.com/q-Software-Engineer-l-Portland,-OR-jobs.html'] def parse(self, response): next_page_outer = './/link[@rel="next"]' next_page_url_outer = response.xpath(next_page_outer).get() print(next_page_url_outer)
Этот код дает:
<link rel="next" href="/jobs?q=Software+Engineer&l=Portland%2C+OR&start=10">
Как получить текст из ссылки, содержащейся в этом ответе?Спасибо!
Я могу ответить на свой вопрос.Ответ был:
next_page_url_href = response.xpath(next_page_outer).xpath("@href").extract()